⾸⾴ 即時財經 小米發佈及開源聲音理解大模型MiDashengLM-7B 2025-08-03 21:09:00 據內媒報道,小米今日(4日)發佈及全量開源聲音理解大模型MiDashengLM-7B。根據介紹,新模型在速度精度上實現突破,單樣本推理的首Token延遲僅為同類模型四分之一、同等顯存下數據吞吐效率是業界先進模型的20倍以上,並在22個公開評測集上刷新多模態大模型最佳成績(SOTA)。 該模型基於Xiaomi Dasheng作為音訊編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,透過創新的通用音訊描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。