朝聞通: 全球領先的新聞稿發佈, 傳播和監測服務提供者
搜尋
昆侖萬維發布并開源 Matrix-Game 2.0 與 Matrix-3D 模型,深耕交互式世界模型領域

昆侖萬維發布并開源 Matrix-Game 2.0 與 Matrix-3D 模型,深耕交互式世界模型領域

2025-08-12 10:07

  8 月 12 日消息,昆侖萬維 SkyWork AI 技術發布周于 8 月 11 日正式啟動,活動将連續五天每天發布一款模型,覆蓋多模态 AI 核心場景。

  在首日,昆侖萬維帶來了自研世界模型 Matrix 系列中 Matrix-Game 交互世界模型的升級版本 ——「Matrix-Game 2.0」,該模型号稱實現了通用場景下的交互式實時長序列生成。為促進交互式世界模型領域的發展,「Matrix-Game 2.0」全面開源,堪稱業内首個在通用場景上實現實時長序列交互式生成的世界模型開源方案。

  「Matrix-Game 2.0」在實時生成和長序列能力上實現了 “質的飛躍”。相較于上一版本,2.0 版本更側重低延遲、高幀率的長序列交互性能,能夠以 25 FPS 的速度,在多種複雜場景中穩定生成連續視頻内容,且生成時長可擴展至分鐘級,大幅提升了内容的連貫性與實用性。

  值得一提的是,在推理速度顯著提升的同時,模型依然保持了對物理規律與場景語義的 “精準理解”,支持用戶通過簡單指令,自由探索、操控并實時構建結構清晰、細節豐富、規則合理的虛拟環境。

  除了 Matrix-Game 2.0.昆侖萬維還開源了 Matrix-3D 大模型。該模型能從單圖像出發,生成高質量、軌迹一緻的全景視頻,并直接還原可漫遊的三維空間,對标李飛飛 WorldLabs 的生成效果,可實現更大範圍的探索空間。

  Matrix-3D 由以下核心部分組成:

  軌迹引導的全景視頻生成模塊:利用場景 Mesh 渲染圖作為條件輸入,訓練視頻擴散模型生成符合給定相機軌迹的全景視頻。這一模塊能提升生成視頻在空間結構上的一緻性,緩解遮擋錯誤與圖像僞影問題。

  雙路徑可選擇的全景 3D 重建模塊:包含優化路徑和前饋網絡路徑。優化路徑會對生成的視頻進行超分與 3DGS 優化,以獲取高質量 3D 結構;前饋網絡路徑則基于 Transformer 直接回歸,從生成視頻 Latent 特征快速預測 3D 幾何屬性,實現高效重建。

  Matrix-Pano 數據集:這是一個大規模高質量合成數據集,包含 116K 條帶有相機軌迹、深度圖和文本注釋的靜态全景視頻序列。

  此次兩款模型的發布與開源,不僅展現了昆侖萬維在 AI 多模态領域的技術實力,也為相關領域的開發者提供了有力的工具支持,有望推動交互式世界模型技術的進一步發展與應用落地。

消息來源: 朝聞通新聞稿發布平臺
相關關鍵詞: