
微軟(MSFT)近日發佈兩款完全自主研發的AI模型MAI-Voice-1和MAI-1 Preview,意味該公司擺脫對OpenAI的依賴,正式進入競爭激烈的AI模型領域。
可1秒內生成1分鐘語音
MAI-Voice-1已在其Copilot Daily和Podcasts中提供,適用於單一及多說話者的場景,該模型允許用戶通過語音與AI互動,微軟認為這將是未來「AI伴侶」的關鍵界面。該公司指MAI-Voice-1能夠在單個GPU上,以不足一秒的時間內生成一分鐘的完整音頻,聲稱是目前可用的最快語音生成系統之一。
另一個模型MAI-1 Preview代表了微軟首次嘗試開發端到端訓練的內部基礎模型。它目前正在AI模型評估平台LMArena上進行公開測試。據介紹,這個模型增強了遵循指令和有效回應用戶查詢的能力,它在約15,000個英偉達H100 GPU上進行了訓練,能夠處理複雜任務並提供強大的性能。微軟計劃在未來幾周內,將MAI-1 Preview整合到Copilot中選定的文本用例中,以收集用戶回應並進行更新改進。