訓練聊天機器人效率提高進步快

2024-03-09 05:59:00

Inflection AI為其聊天機器人Pi推出新模型Inflection-2.5。Inflection AI

本報訊

據VentureBeat報道，由DeepMind聯合創始人蘇萊曼（Mustafa Suleyman）和LinkedIn聯合創始人霍夫曼（Reid Hoffman）創立的波羅阿多初創公司Inflection AI，推出了名為Inflection-2.5的新基礎模型。

Inflection-2.5性能明顯優於該公司最初的Inflection-1，幾乎與OpenAI的GPT-4模型相當，尤其是在STEM學科方面。現在由該模型驅動的聊天機器人Pi，已可通過移動端和網絡進行測試，旨在與ChatGPT和Gemini競爭。

這是在快速發展的AI領域對抗OpenAI主導地位的最新努力。不久前，Anthropic發布了Claude 3 Opus，成為第一個擊敗GPT-4的模型。

Inflection AI自成立以來一直在打造「有同理心、有用、安全」的AI，與GPT系列等其他模型相比，更加為個人化和口語化。公司獨特的同理心微調技術，賦予Pi背後的模型以標誌性的個性和卓越的情商（EQ）。

隨著升級版Inflection 2.5的推出，這家初創公司加強了智力（IQ）方面的構建，涵蓋物理和數學等領域。公司近日發博文說，在Inflection 2.5的支持下，用戶可與Pi討論從愛好、編程、核對生物試卷答案到起草商業計劃書等一系列話題。

在基準測試性能方面，新版比Inflection 1有了全面的大幅提升，表現很接近GPT-4，但仍然落後。

例如，在衡量從高中到專業級難度的任務表現的MMLU基準中，Inflection-2.5得分85.5，僅次於GPT-4的87.3。在STEM考試中，該模型的表現幾乎與OpenAI的模型相當，在匈牙利數學考試中獲得63分，GPT4為68分；在物理GRE考試中獲得85百分位，而GPT-4為97百分位。

在小學數學題GSM8K基準測試中，Inflection模型獲86.3分，而GPT-4為92分。在評估代碼生成能力的0-shot HumanEval中，Inflection獲得73.8分，GPT4則為79.3分。

Inflection-2.5雖然性能沒有超過GPT 4，但是通過更高效的訓練取得顯著進步。公司稱，Inflection-2.5達到這種「94% GPT-4級別的性能」訓練所用的計算量僅為GPT-4的40%。

此外，與GPT-4一樣，該模型也集成了實時網絡搜索功能，為用戶提供最新的時事信息。不過，網絡檢索的質量可能會略有不同，因為沒有基準測試使用網絡檢索。

Inflection AI已為Pi聊天機器人推出了新模型。任何人使用Pi，都可開始測試它的功能。目前，Pi可在安卓、iOS、網頁和桌面應用程式上使用，日活用戶達100萬，月活用戶達600萬。與AI交流的信息已超過40億條，平均對話時間為33分鐘。

科技-三藩市版