谷歌連推多款AI生成新模型

Flow可製作最長八秒的視頻。谷歌

Veo 3生成的視頻可包括音頻。谷歌

Imagen 4創作的圖像內含文字拼寫正確。谷歌

本報訊

谷歌希望利用人工智能(AI)製作視頻更容易,推出一個新的工具來實現這個目標,稱作Flow。同時還發布多個新模型及其更新,包括最新的Veo 3影片生成模型,Veo 2模型的更多控制功能,和圖像生成模型Imagen 4。

據科技網站The Verge報道,使用Flow,你可以透過如文字轉影片提示或素材轉影片提示,來製作最長八秒的AI生成影片。素材轉影片基本上是上傳幾張圖片,再搭配提示文字,幫助模型理解你想要的內容。然後,使用Flow的場景建構器工具,將多個片段拼接在一起。

Flow似乎有點像影片剪輯應用程式,但目的是專門用來製作AI生成影片。谷歌實驗室(Google Labs)的產品經理伊利奇(Thomas Iljic)展示了Flow的一些實際應用範例,如一部動畫風格的影片:「攝影機」先拉遠,揭示原來畫面是在電視上播放,接著畫面再次拉遠,顯示出電視所在的房間。然後,「攝影機」慢慢飛出窗外,看到一輛卡車駛過。

影片整體看起來相當流暢,伊利奇稱,Flow的理念並不在於製作長影片,而是為了幫助電影製作人快速將他們的想法紀錄下來。

對於谷歌在I/O大會上發布的新模型,谷歌DeepMind創意主管洛蘭(Matthieu Lorrain)表示,Veo 3將擁有更佳的畫質,並且更容易下提示,同時生成影片和聲音(包括對話)。它在理解較長的提示方面也更強,能正確處理在提示中描述的一系列事件。

Veo 2 將提供如鏡頭控制和物件移除等工具。谷歌新的圖像生成模型Imagen 4的品質有所提升,不僅可以導出更多格式,還有更擅長生成可讀的文字,而不是這些圖像中經常出現的AI亂碼。

Flow已於近日在美國推出,開放給訂閱谷歌全新的Google AI Pro和Google AI Ultra方案的用戶。谷歌稱AI Pro提供Flow的主要功能,每月可生成100次創作,而AI Ultra 提供更高的使用上限,並可優先體驗支援原生音訊生成的Veo 3模型。

科技-三藩市版