/朝聞通/8月10日,2025 世界機器人大會在北京舉行。智元機器人合夥人兼具身業務部總裁姚卯青在會議上發表了題為《通向具身智能大規模突破之路——智元的本體數據算法飛輪》的演講,系統闡述了智元在具身智能領域的探索成果與未來方向。
姚卯青介紹,上海智元機器人成立于 2023 年 2 月,自創立起便緻力于推動 AI 與機器人的深度融合。至今,智元已取得一系列紮實成果:發布全系列多款機器人産品,建成規模化生産産線與機器人訓練場數據采集中心,在具身智能相關算法領域實現多項創新,并在多個實際應用場景完成探索驗證,為技術落地築牢根基。
姚卯青強調,機器人企業要讓軟硬件産品在行業有效落地,核心在于構建 “本體 - 數據 - 模型 - 場景” 緊密耦合的全棧布局。這四者形成相互驅動的飛輪疊代邏輯:優質本體産生高質量數據,海量高質量數據支撐算法持續突破,算法結合場景試錯後,又為本體優化、數據采集方向、算法疊代提供新指引。這種閉環循環不斷加速,未來智元将分享更多飛輪疊代成果。
“進入飛輪循環的首個挑戰是數據。”姚卯青指出,與大語言模型從業者不同,機器人從業者需直面物理世界強交互特性,既要調試硬件,又要将模型部署到工業級系統測試,這使得數據需求與互聯網數據存在本質差異。
“然而,現有互聯網數據對機器人訓練遠遠不夠,” 姚卯青解釋道,“機器人需要大量動作類、長程規劃類數據,這類數據在網絡上極為稀缺。” 為此,智元希望 “種下第一棵樹”,吸引更多同行加入數據建設,共同形成數據海洋,目前這一探索已取得階段性成果。
為破解數據難題,智元于2024年底開源了AgiBot World百萬真機數據集。姚卯青表示,該數據集旨在提供工業級高質量數據支撐,包含百萬條機器人數軌迹,每條數據都經過多輪審核,确保場景貼近現實、任務複雜多樣。
姚卯青還表示,AgiBot World數據集隻是起點,智元在數據采集方式上有兩項關鍵創新:
對抗式采集數據:在常規數據采集過程中主動引入幹擾,例如改變語言指令、制造視覺擾動等,以此提升數據信息密度。實踐證明,這種方式能提供數倍于常規數據的信息量,有效加快機器人訓練收斂速度,且已在多任務和多構型機器人上驗證效果。
自主進化式的數據采集:針對機器人在真實環境中自主執行任務時難以提前枚舉的 “長尾失效” 問題,智元引入自主進化式采集方案。 當機器人執行任務失效瞬間,系統自動接管并打斷進程,回退到失效前狀态,再通過人工接管完成數據采集。這一方式能将難場景下的高價值數據補充到訓練集,有效拓展數據分布邊界,依托數據擴增提升機器人能力上限,其邏輯類似 Dagger 算法框架。
姚卯青說,圍繞數據消費,智元于今年 3 月推出具身智能基座模型GO-1 。該模型在架構上實現雙重創新:依托 VLM 基礎模型和 MOE 混合專家架構,其中 “隐式動作專家” 融合多源數據形成通用動作表達,“顯式動作專家” 則将通用描述精準落實到特定本體控制,讓機器人既能從人類視角學習動作規律,又能掌握物理世界交互邏輯。
姚卯青指出,GO-1 模型發布後,其在生活、零售、工業三大場景的評測中表現尤為亮眼。相較于 3 月時的海内外開源模型,成功率提升 10%-30%。同時,智元發布的AgiBot World數據集,能夠很好的驗證 Scaling Law,研究揭示了預訓練關鍵規律:數據量、多樣性及質量對模型性能影響顯著,且實驗證明,單一本體預訓練數據的後訓練遷移效果優于多本體數據。這表明,機器人預訓練的核心在于數據場景的多樣性、質量,以及适配的模型設計。
“除 GO-1外,智元團隊深耕世界模型方向,秉持 “生成理解一體化” 理念。正如人類做事前會在腦海中規劃推演,機器人也需依托世界模型精準推演,縮短與實際操作的差距。測試顯示,在智元自身本體的多任務測試中,GE-Act 效果優于近期開源的 UniVLA 和 NVIDIA 的 GR00T 模型;針對跨本體遷移能力,以AgiBot World數據集訓練的 GE-Base 模型,在 Franka 等本體上表現優異,在開源 Benchmark 和真機測試中,成功率顯著高于現有開源模型。”姚卯青說
姚卯青強調,基于世界模型生成的動作,智元機器人能完成疊衣服、組裝紙盒等複雜雙臂靈巧操作,也能在工業傳送帶上精準執行物體抓取和打包任務。值得注意的是,相較于 VLA 等短時序輸入輸出模型,具備長時序推演能力的 GE-Act 在動态場景抓取定位精度上優勢明顯。
GE-Sim 以動作序列為輸入,如同高精度仿真器,能在雜亂真實環境中渲染畫面,且具備時空一緻性和語義合理性。對比測試顯示,其與真實機器人的推理效果高度一緻,量化成功率接近。姚卯青說,依托該仿真器,可快速疊代機器人策略,極大縮短模型研發周期,減少實際評測中的複雜流程與損失。
姚卯青表示,為規範世界模型評測,智元推出 GE Bench 并已在 GitHub 和 HuggingFace 開源,成為 IROS 世界模型挑戰賽的重要準備工具。 該 Benchmark 從軌迹遵循度、語義合理性、因果一緻性等多維度評估模型,而基于機前數據預訓練的 GE-Base 模型,在各維度表現均優于主流視頻生成類模型。
姚卯青分享了智元在機器人研發中的實踐心得:機器人本質要回歸執行器,優質執行器是性能基礎;傳感器雖重要,但調教與量産一緻性是行業難題;若聚焦單一機器人類型,人形是較合理的選擇;具身智能應是 “機器人 + AI”,需深度結合硬件本體;此外,必須追求量産和一緻性,以減少各環節誤差。
姚卯青表示,智元計劃将上述 “苦澀教訓” 融入飛輪疊代,并于今年下半年推出新一代機器人AgiBotG2.該平台采用更靈巧的本體設計,對傳感器、執行器提出更高标準,搭載英偉達 Thor 高算力量産域控制器,被定義為 “工業級交互式具身智能作業全球标杆平台”,引發行業廣泛關注。
姚卯青強調,“數據 - 模型 - 本體 - 場景” 飛輪的轉動,最終是為賦能千行百業。過去一年,智元在多場景取得突破:柔性制造中,用具身智能解決專業設備無法應對的高精度、力控、泛化性操作問題;物流分揀上,具身智能通用機器人與專用設備配合,處理傳統視覺定位 + 規劃難以完成的雜亂物品分揀;此外,還實現了安檢崗點人力清零、電力通信機房巡檢操作等場景的人力替代與降本增效。
“具身智能賽道廣闊,” 姚卯青呼籲,“希望全球同行攜手,共同探索這一智能邊疆,讓技術真正創造價值。”