訓練聊天機器人 效率提高進步快

Inflection AI為其聊天機器人Pi推出新模型Inflection-2.5。Inflection AI

本報訊

據VentureBeat報道,由DeepMind聯合創始人蘇萊曼(Mustafa Suleyman)和LinkedIn聯合創始人霍夫曼(Reid Hoffman)創立的波羅阿多初創公司Inflection AI,推出了名為Inflection-2.5的新基礎模型。

Inflection-2.5性能明顯優於該公司最初的Inflection-1,幾乎與OpenAI的GPT-4模型相當,尤其是在STEM學科方面。現在由該模型驅動的聊天機器人Pi,已可通過移動端和網絡進行測試,旨在與ChatGPT和Gemini競爭。

這是在快速發展的AI領域對抗OpenAI主導地位的最新努力。不久前,Anthropic發布了Claude 3 Opus,成為第一個擊敗GPT-4的模型。

Inflection AI自成立以來一直在打造「有同理心、有用、安全」的AI,與GPT系列等其他模型相比,更加為個人化和口語化。公司獨特的同理心微調技術,賦予Pi背後的模型以標誌性的個性和卓越的情商(EQ)。

隨著升級版Inflection 2.5的推出,這家初創公司加強了智力(IQ)方面的構建,涵蓋物理和數學等領域。公司近日發博文說,在Inflection 2.5的支持下,用戶可與Pi討論從愛好、編程、核對生物試卷答案到起草商業計劃書等一系列話題。

在基準測試性能方面,新版比Inflection 1有了全面的大幅提升,表現很接近GPT-4,但仍然落後。

例如,在衡量從高中到專業級難度的任務表現的MMLU基準中,Inflection-2.5得分85.5,僅次於GPT-4的87.3。在STEM考試中,該模型的表現幾乎與OpenAI的模型相當,在匈牙利數學考試中獲得63分,GPT4為68分;在物理GRE考試中獲得85百分位,而GPT-4為97百分位。

在小學數學題GSM8K基準測試中,Inflection模型獲86.3分,而GPT-4為92分。在評估代碼生成能力的0-shot HumanEval中,Inflection獲得73.8分,GPT4則為79.3分。

Inflection-2.5雖然性能沒有超過GPT 4,但是通過更高效的訓練取得顯著進步。公司稱,Inflection-2.5達到這種「94% GPT-4級別的性能」訓練所用的計算量僅為GPT-4的40%。

此外,與GPT-4一樣,該模型也集成了實時網絡搜索功能,為用戶提供最新的時事信息。不過,網絡檢索的質量可能會略有不同,因為沒有基準測試使用網絡檢索。

Inflection AI已為Pi聊天機器人推出了新模型。任何人使用Pi,都可開始測試它的功能。目前,Pi可在安卓、iOS、網頁和桌面應用程式上使用,日活用戶達100萬,月活用戶達600萬。與AI交流的信息已超過40億條,平均對話時間為33分鐘。

科技-三藩市版