8 月 4 日消息,小米自研聲音理解大模型 MiDashengLM-7B 正式發布,并宣布全量開源,為聲音理解領域帶來新的技術突破與活力。
據小米官方介紹,MiDashengLM-7B 在速度和精度上實現了雙突破。其單樣本首 Token 延遲僅為同類模型的 1/4.這意味着模型在處理音頻輸入時,能夠以極快的速度給出初始反饋,大幅減少等待時間;在同顯存下,并發量超 20 倍,大大提升了數據處理效率,能夠同時應對多個音頻任務。在性能表現上,該模型在 22 個公開評測集上刷新了多模态大模型的最好成績(SOTA),充分展現了其卓越的聲音理解能力。
MiDashengLM-7B 的技術架構十分獨特,它基于 Xiaomi Dasheng 作為音頻編碼器,結合 Qwen2.5-Omni-7B Thinker 作為自回歸解碼器,并通過創新的通用音頻描述訓練策略,成功實現了對語音、環境聲音和音樂的統一理解。這種對不同類型聲音的融合理解能力,在實際應用中具有極大的價值。
回溯到 2024 年,小米發布的 Xiaomi Dasheng 聲音基座模型便已在國際上嶄露頭角,首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 環境聲、語音、音樂三大領域建立了領先優勢,并且這一優勢一直保持至今。在小米的智能家居和汽車座艙等場景中,Xiaomi Dasheng 已有超過 30 項落地應用。比如行業首發的車外喚醒防禦功能,能有效避免車輛在不必要的情況下被喚醒;手機音箱全天候監控異常聲音,為家庭安全保駕護航;“打個響指” 就能實現環境音關聯 IoT 控制,為用戶帶來便捷的智能生活體驗;還有小米 YU7 上搭載的增強哨兵模式劃車檢測,背後都是 Xiaomi Dasheng 作為核心算法在提供支持。
MiDashengLM 的訓練數據全部來源于公開數據,這使得模型在開源後,更易于被開發者和研究人員理解與研究。模型以寬松的 Apache License 2.0 發布,無論是學術研究還是商業應用,都能夠方便地使用,這對于推動聲音理解技術在不同領域的發展具有積極意義。
小米強調,與 Qwen2.5-Omni 等未公開訓練數據細節的模型不同,MiDashengLM 完整公開了 77 個數據源的詳細配比,并且在技術報告中詳細介紹了從音頻編碼器預訓練到指令微調的全流程。這種透明化的操作,為行業内的技術交流與合作提供了良好範例,有助于整個聲音理解領域技術水平的提升。
作為小米 “人車家全生态” 戰略的關鍵技術,MiDashengLM 的跨領域能力優勢明顯。它不僅能精準聽懂用戶周圍發生的事情,還能深入分析這些事情背後的隐藏含義,極大地提高了用戶場景理解的泛化性。基于 MiDashengLM 的模型通過自然語言與用戶交互,能夠提供更加人性化的溝通和反饋。在用戶練習唱歌或練習外語時,它可以提供發音反饋,并制定針對性的提升方案;當用戶駕駛車輛時,能實時解答用戶關于環境聲音的提問。
MiDashengLM 以 Xiaomi Dasheng 音頻編碼器為核心組件,是 Xiaomi Dasheng 系列模型的重要升級。目前,小米已着手對該模型做進一步的計算效率升級,目标是實現終端設備上的離線部署,這将使得模型在一些網絡條件不佳或者對隐私性要求較高的場景下,依然能夠穩定運行。同時,小米還計劃完善基于用戶自然語言提示的聲音編輯等更全面的功能,不斷拓展模型的應用邊界,為用戶帶來更豐富、更智能的聲音相關服務。