
谷歌人工智能(AI)研發團隊DeepMind透露,已開發一個全新AI系統,利用一個「機器可分級」(machine-gradable)自動評估系統,減少出現幻覺的可能。
DeepMind稱,這個名為AlphaEvolve的系統將有助一些谷歌用於訓練AI模型的基礎建設最佳化。DeepMind正在建構一個使用者介面來與AlphaEvolve互動,並打算啟動一個搶先體驗計劃向特定學者試用,然後才可能進一步對外開放。
大多數AI模型都會產生「幻覺」,源自其機率性架構,有時很有自信地捏造資訊。事實上,像OpenAI的o3等較新的AI模型比它們的前幾代更會產生幻覺,說明了這個問題的挑戰性。
AlphaEvolve引入了一個巧妙的機制來降低幻覺的可能性,就是自動評估系統。該系統利用模型生成、批判和得出問題的可能答案,並自動評估答案的準確性和比分數。
AlphaEvolve不是首個採取這種策略的系統,數年前包括DeepMind一支團隊在內的研究員就曾將同類技術應用於不同的數學領域。但DeepMind聲稱,AlphaEvolve利用「最先進模型」,尤其是Gemini模型,使它比早期的AI模型更強大。
如欲使用AlphaEvolve,用戶必須向它提供一個問題作為提示,且可選擇地附上細節,例如操作說明、方程式、程式碼片段和相關文獻等,也必須提供一種機制以公式的形式自動評估該系統所提供的答案。
由於AlphaEvolve只會解決它可以自我評估的的問題,因此僅適用於某些類型的問題,特別是涉及電腦學和系統最佳化。另一個重大限制是,AlphaEvolve僅能以演算法描述解方,因此它無法適用於非數學問題。本報訊