關注中國自動化產業發展的先行者!
橫河電機250105
2026中國自動化產業年會
2025工業安全大會
OICT公益講堂
當前位置:首頁 >> 資訊 >> 行業資訊

資訊頻道

DeepMind推出SIMA 2:具身智能的“全能玩家”與“自主學習者”
  • 點擊數:1735     發布時間:2025-12-23 17:54:24
  • 分享到:
在AI從「被動理解」到「主動交互」的發展過程中,具身智能始終面臨一個核心挑戰:如何讓模型在3D世界中像人類一樣「感知-推理-行動」?Google DeepMind最新發布的SIMA 2,是一款基于Gemini的通用具身智能體,不僅能在多樣虛擬世界中逼近人類水平,還能自主學習新技能,為「通用智能的具身化」邁出了關鍵一步。

在AI從「被動理解」到「主動交互」的發展過程中,具身智能始終面臨一個核心挑戰:如何讓模型在3D世界中像人類一樣「感知-推理-行動」?Google DeepMind最新發布的SIMA 2,是一款基于Gemini的通用具身智能體,不僅能在多樣虛擬世界中逼近人類水平,還能自主學習新技能,為「通用智能的具身化」邁出了關鍵一步。

論文鏈接:https://arxiv.org/pdf/2512.04797

項目主頁:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

摘要:我們提出SIMA 2,一款能夠在各類3D虛擬世界中理解并行動的通用具身智能體。該智能體基于Gemini基礎模型構建,是向具身環境中主動、目標導向交互邁出的重要一步。

與僅局限于簡單語言指令的先前研究(如SIMA 1)不同,SIMA 2可作為交互式伙伴,能夠對高階目標進行推理、與用戶對話,并處理通過語言和圖像傳遞的復雜指令。在多樣化的游戲組合中,SIMA 2大幅縮小了與人類表現的差距,展現出對未見過環境的穩健泛化能力,同時保留了基礎模型的核心推理能力。

此外,我們還驗證了其開放端自改進能力:通過利用Gemini生成任務并提供獎勵,SIMA 2能夠在全新環境中從零自主學習新技能。本研究驗證了一條路徑,即打造適用于虛擬世界、并最終可拓展至物理世界的多功能且能持續學習的智能體。

1  具身智能核心挑戰

長期以來,基礎模型(LLM/VLM)在語言、圖像等靜態任務中表現驚艷,但在3D環境中卻陷入「Moravec悖論」:下圍棋、寫代碼等高階認知任務易實現,而清理餐桌、導航復雜地形等低階感知運動技能卻難如登天。

核心問題在于「非具身性」:傳統模型依賴靜態互聯網數據訓練,缺乏與環境的交互體驗,無法理解行動的因果關系。Google DeepMind此前的SIMA 1雖能遵循簡單指令,但局限于短指令、無推理能力,泛化性極差。

因此團隊提出SIMA 2,以Gemini為核心,將推理、對話、行動深度融合,從「指令執行者」升級為「交互式伙伴」,并且能在未見過的環境中自主進化。

17667424991.png

SIMA 2在多環境中的交互示意圖

2  核心設計

SIMA 2的強大性能,源于其從架構到訓練的全方位優化:

2.1 基礎架構

SIMA 2以Gemini Flash-Lite為核心,融合游戲數據與預訓練數據,打破了「感知、語言、行動」的模態壁壘。與SIMA 1不同,它無需單獨訓練語言編碼器,直接繼承Gemini的多模態理解、推理和對話能力,實現「輸入-思考-輸出」的端到端閉環。

2.2 訓練環境

· 訓練環境:覆蓋8款商用游戲(如《無人深空》《英靈神殿》)+3款研究環境,新增《太空工程師》等復雜沙盒游戲,場景包含開放世界、生存建造、太空探索等多元類型。

· 泛化測試環境:專門設置“未訓練環境”,包括維京生存游戲ASKA、Minecraft基準MineDojo、故事驅動型游戲《The Gunk》,以及Genie 3生成的 photorealistic 場景(自然/城市環境)。

2.3 訓練數據與流程

· 數據類型:

    ☉ 人類數據(主體):通過“單人游戲后標注”和“Setter-Solver雙人互動”兩種方式,收集包含“圖像-動作-語言指令”的多模態軌跡,覆蓋低階動作控制。

    ☉ 橋接數據(關鍵補充):由Gemini Pro生成,注入“推理-對話”模態,彌補人類數據的模態缺失,教會模型如何將高階指令轉化為分步行動。

· 訓練流程:先通過監督微調(SFT)融合雙數據源,再通過強化學習(RL)優化可驗證任務,確保“高 embodied 性能”與“通用推理能力”不沖突。

17667425171.png

Agent-Environment Interface交互流程圖

3  核心能力

3.1 具身對話

SIMA 2能像伙伴一樣與用戶互動——不僅能確認指令、反饋進度,還能主動探索并回答問題。例如在《無人深空》中,用戶詢問“蛋形物體的材質”,它會導航至目標、掃描分析,最終回復“這些是含碳植物”。

3.2 基礎推理

面對“去像成熟番茄的房子”這類模糊指令,SIMA 2能通過內部推理拆解意圖:成熟番茄=紅色→ 識別紅色房屋→ 規劃路線。這種能力讓它能處理訓練數據中未見過的新穎指令。

3.3 復雜指令執行

· 多步驟指令:能拆解“上二樓→左轉進觸手房間→拿VR設備”等長指令,分步執行并實時匯報。

· 跨語言/符號:零-shot支持法語、中文等多語言,甚至能解析表情符號(斧頭+樹=砍樹)。

3.4 多模態提示

繼承Gemini的多模態能力,SIMA 2能通過草圖、截圖等指令行動。例如給它一張樹的草圖,它會自動識別并完成“砍樹”動作,無需文字描述。

17667425321.png

具身對話與基礎推理示例

17667425461.png

復雜指令與多模態提示示例

4  性能實測

4.1 訓練環境

在自動評估(基于環境狀態/ OCR )和人類評估(5名獨立評分者)中,SIMA 2的平均成功率較SIMA 1翻倍——自動評估從33%提升至65%,人類評估從25%提升至50%,逼近人類限時表現(66%)。

從技能維度看,它在“環境交互”“物體管理”等類別中幾乎追平人類,僅在“戰斗”“資源收集”等依賴精細操作的任務中仍有提升空間。

17667425501.png

訓練環境性能對比圖

4.2 未知環境

在完全未訓練的ASKA和MineDojo中,SIMA 2的成功率較SIMA 1提升12%-13%:

· ASKA中:從“僅能打開地圖”升級為“建造村莊、分配村民任務”;

· MineDojo中:從“僅能挖泥土、打蜘蛛”擴展到26/50個任務類別,涵蓋采礦、 crafting 、戰斗;

· 更極端的測試中,它能在《The Gunk》中完成15-20分鐘劇情任務(使用全新吸附工具清理污染物),在Genie 3的 photorealistic 場景中精準導航至目標。

17667425681.png

未訓練環境泛化對比圖

17667425851.png

Genie 3 photorealistic 環境導航示例

4.3 關鍵優勢

傳統具身模型微調后易出現「災難性遺忘」,但SIMA 2在編碼(LCB)、數學(AIME)、STEM(GPQA Diamond)基準中僅輕微下降(最大降幅25.5%),證明高「embodied 性能」與「通用智能」可兼得。

5  自主學習,持續進化

通過雙Gemini協作,SIMA 2可實現無需人類標注新數據,就能在陌生環境中自主提升技能。

5.1 自改進機制

· 任務生成器(Gemini):根據當前環境狀態,生成“可實現、有挑戰性”的任務(如“靠近雨水收集器”“熄滅篝火”);

· 獎勵模型(Gemini):對 agent 行動軌跡評分(0-100分,≥50分為成功),評分維度包括“任務完成度”“行動效率”;

· 迭代優化: agent 用自我生成的“任務-軌跡-評分”數據重新訓練,持續提升性能。

17667425901.png

5.2 實測效果

在ASKA環境中,初始SIMA 2僅能完成25%的任務,經過多輪自改進后:

· 所有任務成功率達100%,平均分數超越人類資深玩家;

· 自主解鎖新技能:識別雨水收集器、操作陌生 crafting 菜單、熄滅篝火;

· 更驚人的是,在Genie 3的“城市-自然”跨場景測試中,自改進后的SIMA 2能將城市環境學到的導航技能,遷移到自然場景中(如尋找紅色蘑菇)。

17667426031.png

自改進 setup 與游戲進度圖

17667426171.png

Genie 3跨場景自改進對比

6  意義與局限

6.1 核心意義

· 技術突破:驗證了“基礎模型+具身訓練”的可行性,解決了“推理-行動”融合的核心難題;

· 泛化價值:虛擬環境中習得的技能可遷移至 photorealistic 場景,為 robotics 等物理世界應用鋪墊;

· 自改進啟示:開創了“ agent + world model ”的開放端學習范式,為通用智能的“終身學習”提供了思路。

6.2 現存局限

· 長周期任務:處理需多步推理+目標驗證的復雜任務仍有困難;

· 記憶限制:依賴有限上下文窗口,難以記住長期交互歷史;

· 精細操作:鍵盤鼠標接口的低階動作精度不足,復雜3D場景的視覺理解仍需優化。

6.3 未來方向

SIMA 2的發布,不僅是「虛擬世界的全能玩家」,更是「通用具身智能的鋪路石」。未來,隨著Gemini的迭代和物理世界數據的融合,它有望將虛擬環境中習得的技能遷移至機器人,真正「打通虛擬訓練與物理應用的邊界」。


來源:一點人工一點智能


熱點新聞

推薦產品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
欧美视频一区