具身智能：核心挑戰、關鍵技術演進與產業前景展望-資訊-控制網

具身智能：核心挑戰、關鍵技術演進與產業前景展望

點擊數：2791 發布時間：2026-02-10 15:02:06
分享到：

AI（Artificial Intelligence）正在從數字世界走向物理世界，從離身智能走向具身智能，但當前行業仍面臨學術研究井噴與產業落地艱難并存的矛盾。為了彌合技術愿景與產業現狀的鴻溝，本文從技術發展和產業發展兩個視角，對具身智能面臨的挑戰、現狀和仍存在的問題進行了闡述，并對可能的商業化途徑進行了展望。本文首先構建了具身智能的能力分級標準（Level 1-5）；繼而剖析了空間感知、記憶+長程任務規劃、Sim2Real數據壁壘以及軟硬件生態碎片化等阻礙落地的核心挑戰；最后，基于技術邊界提出了“專用場景先行”“智能穿戴增強”及“情感陪伴”等務實的商業化路徑，為具身智能從實驗室走向物理世界通用助手提供了系統性的演進展望。

關鍵詞：具身智能；具身大模型；Sim2Real；空間感知；商業化路徑；機器人生態

1 引言

1.1 背景

具身智能（Embodied AI）代表了人工智能發展的下一代浪潮，它旨在將人工智能系統與物理實體深度融合，使其不僅具備“大腦”的思考能力，更擁有“身體”的執行能力，能夠感知、理解并與物理世界進行交互。

與傳統的互聯網AI（LLM/VLM/Coding agent等）不同，具身智能不再局限于文本或者圖像這類數字世界里。同時，它也區別于傳統機器人：傳統工業機器人雖然有實體，但往往基于預編程，只能完成固定軌跡的動作，缺乏泛化能力。而具身智能的核心在于“智能”，即在非/半結構化環境中具備感知、推理和決策的能力。

目前人們對具身智能的終極發展愿景：成為人類在物理世界的通用助手-從家庭場景中的疊衣、洗碗、烹飪，到工業場景中的柔性制造、物流搬運，乃至商業場景中的迎賓與外賣配送。

1.2 寫作動機

近年來，具身智能領域的研究顯著增長。然而，現有的綜述大多聚焦于純技術維度的梳理：一些工作深入探討了具身智能大模型（Embodied Foundation Models）的架構演進[1,2]，還有部分則側重于分析模型訓練所需的數據來源[3]。

盡管這些文獻為理解技術前沿提供了寶貴視角，但它們往往忽視了一個維度-技術與產業的結合。當前的具身智能領域正面臨“雙重現實”：一方面學術demo和文章層出不窮；另一方面則是當前技術發展與人們的愿景之間的鴻溝、落地困難、商業模式模糊。

為了彌合這一Gap，本文將討論以下問題：具身智能的能力維度有哪些？技術發展的挑戰還有哪些？從實驗室走向真實場景的落地難點在何處？未來可行的商業化路徑又是什么？

1.3 本文框架總覽

本文將圍繞具身智能從“技術愿景”走向“產業現實”的路徑展開。第2章首先定義具身智能的核心能力維度與智能化分級標準；第3章是本文的核心，深度剖析模型、數據、本體、生態四大維度的核心挑戰，揭示阻礙落地的原因；第4章基于上述分析，展望從現狀到愿景的商業化落地路徑；最后在第5章進行總結。

2 具身智能核心能力

2.1 具身智能整體架構設想

從當前各大廠商發布的具身智能工作（Google: RT-2[4]、Gemini Robotics[5]、OpenVLA[6], Physical Intelligence: Pi0[7]、Pi0.5[8], Nvidia: Gr00t N1[9]、 Gr00t N1.5[10]），以及智駕的發展趨勢來看，端到端的模型受到大家的青睞。端到端模型：（1）帶來技術范式突破：端到端數據驅動，將基礎模型的成功范式擴展到物理世界，消除了模塊化設計帶來的誤差累積問題；大規模預訓練帶來涌現能力，讓單一模型可以泛化到未見過的任務和環境；（2）技術門檻降低：傳統機器人需要針對每個具體場景進行復雜的模塊化設計和工程化開發，而端到端學習和泛化能力大幅降低了部署門檻；（3）用戶體驗革命：提供了全新的人機交互方式。

但端到端模型不代表能力單一，Pi0.5、Gemini- robotics 等都專門訓練了具備感知、規劃能力的主干模型，能夠支持action decoder輸出動作的同時，也能夠輸出感知和規劃的結果。這樣既保留了端到端模型的優勢，又增加了可解釋性和可控性，實現了能力的模塊化和復用。

我們根據當前具身智能體需要的主要能力：記憶、交互、感知、規劃、推理、執行，得到了如圖1所示的架構示意圖。

圖片.png

圖1 架構示意圖

2.2 具身智能能力分級以及當前所在階段

參考自動駕駛的分級標準，我們將具身智能的能力劃分為五個等級：

Level 1（預編程/遙控）：無環境感知能力，僅能重復執行固定軌跡（如傳統汽車產線機械臂）或完全依賴人類遙控。

Level 2（單一任務自動化）：具備基礎感知和避障能力，能在結構化環境中執行單一特定任務（如掃地機器人、AGV）。

Level 3（多任務/條件泛化）：能理解自然語言指令，執行多種任務（如“拿蘋果”“倒水”），但在未見過的環境（Zero-shot）中成功率不穩定，需要人類偶爾接管。

Level 4（通用自主）：具備長程規劃能力，能適應非結構化環境，具備物理常識和自主糾錯能力（Re- planning），僅在極端情況下需要干預。

Level 5（完全具身智能）：具備人類水平的感知精度、靈巧操作能力和情感交互能力，完全自主。

當前階段：行業整體處于Level 2向Level 3跨越的階段。學術界的SOTA（State of the Art）Demo已觸達Level 3的邊界，但產業界的量產產品仍主要集中在Level 2，正在努力攻克Level 3的穩定性難題。

3 具身智能核心挑戰、現狀、發展趨勢，以及仍存在的問題

3.1 具身智能體系統能力

3.1.1 空間感知

（1）現狀

學術界：多數基于2D（例如op en v l a [ 6 ] 、 RDT[11]、Univla[12]等），但已經有拓展到3D的趨勢，例如SpatialVLA[13]等通過深度估計+3D positional embedding的方式提取圖像中的3D信息來補充vla現在缺少空間信息的問題。但是一方面深度估計未必準確，另一方面不能夠端到端優化整個網絡。目前CVPR 2025的best paper提出了3D基礎模型VGGT[14] ，這為未來3D基礎模型的發展以及具身智能的空間能力提升帶來了新的可能，即通過多視角圖像提取隱式的3D信息。 Evo-0[15]等工作就已經采用了這種方式把空間信息融入到VLA（Vision-language-model，視覺語言動作）模型中。

產業界：多基于2D，如Gemini Robotics、 Physical Intelligence都是以多視角圖像作為輸入的，目前缺少大廠投入空間基礎模型。在智駕領域， Tesla以及各個智駕大廠，幾乎都采用了BEV以及Occupancy Network將3D信息進行投影。李飛飛的工作Voxposer[16]也采用了Occupancy的方式來表達桌面級別的空間語義。然而空間越大，柵格體積越小越密集，這種方式的計算量就越大。而且具身智能很多時候需要操作或者尋找一些小的物體，這種方式就有可能不適用了。

（2）趨勢：根據以上的發展趨勢，我們預測未來的主流趨勢是基于多視角圖像+3D基礎模型提取帶有空間信息的隱式表征，在高精度、高安全性需求的場景中，lidar等傳感器數據為補充。

（3）Gap：雖然VGGT為空間感知帶來了一條好的路線，但是目前仍然缺少更好的空間基礎模型；缺少在具身智能數據上訓練的空間感知backbone（例如能輸出3D bbox、能做方位的VQA等）；缺少空間預測能力：預測未來的空間狀態；大空間，例如多居室、萬平米園區等該如何表征仍需探索。

3.1.2 記憶+復雜任務規劃與長程推理

（1）現狀

學術界：在端到端具身智能模型VLA出現之前，有一些工作嘗試用訓練好的大模型拆解任務步驟，例如saycan[17]、Inner Monologue[18]、code as policies[19]等。雖然近年來端到端模型表現出了出色的泛化能力，然而傳統的端到端模型目前仍不能很好地完成長程推理任務，例如Pi0，在任務步驟變多時，任務的成功率會下降。因此有一些工作通過在模型backbone部分引入長序任務拆解VQA的訓練來提升端到端模型的長序任務規劃能力，例如Nav-R1[20]和dexgraspvla[21]。

另外，有些長序任務需要機器人具備記憶能力，以維護歷史狀態和當前進度。例如在烹飪任務中，向湯中加鹽后，視覺狀態幾乎沒有變化。如果沒有記憶模塊記錄“已加鹽”這一歷史動作，機器人僅憑當前的視覺觀測可能會錯誤地重復加鹽，導致任務失敗。 MemoryVLA等[22]工作嘗試為VLA加上以及模塊，嘗試完成更復雜的任務。

產業界：Google和Physical Intelligence都單獨訓練了長序規劃模型，以提升VLA完成長序任務的能力，即Gemini-Robotics-ER[5]和Pi0.5[8]。目前頭部公司并未有具身智能體記憶相關的工作。但在LLM領域已經有頭部公司投入了，例如DeepSeek也加入了記憶模塊–DeepSeek Engram[23]，Sam altman也宣稱記憶模塊是通往AGI的重要拼圖[24]。

（2）趨勢：①端到端模型能力層級化：未來的具身智能模型將在保持端到端可訓練性的同時，實現能力的分層。即模型不僅能輸出底層的控制動作，還能在同一網絡內內生出長程規劃和空間感知的能力；②時空記憶：模型將普遍集成記憶模塊，具備維護持久化世界狀態的能力，能夠同時處理空間拓撲記憶（如環境地圖）與時序歷史記憶（如操作歷史），以支持更復雜的交互任務。

（3）Gap

①推理延遲：與純軟件Agent不同，具身智能體面臨嚴格的控制頻率約束（如20Hz+），而引入復雜的任務拆解與思維鏈（CoT）推理會顯著增加計算耗時。如何在高頻的閉環控制中高效嵌入低頻的深層推理，解決推理效率與響應速度的矛盾，是亟待解決的系統級難題。

②超長記憶：現有的記憶機制難以直接應對跨天、跨場景的任務。如何對海量的物理世界歷史交互數據進行有效的語義壓縮、存儲與精準檢索，以維持長周期的任務連續性，仍是巨大的挑戰。

3.1.3 物理理解

（1）現狀

目前使具身智能模型更加理解物理世界的方式有兩種：一種是引入力等模態作為物理約束；一種是使用世界模型（world model），通過預測物理世界的未來狀態，迫使模型理解物理世界的變化規律。

學術界：學術界多數工作還是基于純視覺的。近期有一些工作使用第一種方式，加了力作為約束，例如DexGrasp Anything[25]、ForceVLA[26]。也有另一些工作使用第二種方式，如NWM-navigation world model[27] ，使用世界模型根據動作預測未來世界狀態。在智駕領域和具身智能領域，也有工作做未來occupancy預測，例如OccWorld[28]、 RoboOccWorld[29]。

產業界：產業界的操作領域還沒見過有相關的工作，智駕領域已經有公司引入或看好world model，例如蔚來[30]、小鵬[31]、華為[32]等。

（2）趨勢

①多模態物理感知融合：未來的模型將不再局限于視覺，而是向“視-觸-力”融合的方向發展。通過引入觸覺和力數據，模型將具備細粒度的物理交互感知能力（如摩擦力、剛度、重量感知），從而實現更精準的接觸式操作。

②基于物理規律的世界模型：世界模型將從單純的“視頻生成”向“物理仿真”進化。未來的世界模型不僅能生成逼真的視覺圖像，還能內嵌物理引擎的邏輯，準確預測物體在受力后的運動軌跡、形變以及碰撞反應，真正充當機器人的“大腦模擬器”，支持在潛在空間中進行低成本的試錯與規劃。

（3）Gap

①觸覺與力覺數據的表征：問題：相比于成熟的視覺（RGB）表征，觸覺和力覺數據具有高頻、稀疏、非結構化的特點。目前缺乏統一且高效的觸覺/力覺基礎模型，難以像處理圖像那樣通用地提取物理特征。此外，高質量的觸覺-視覺對齊數據集極度匱乏，限制了多模態物理模型的訓練。

②世界模型的“物理幻覺”：問題：現有的生成式世界模型（如Sora類架構）雖然視覺效果逼真，但常出現違背物理常識的錯誤（如物體憑空消失、穿模、液體流動不自然）。純數據驅動的視頻生成模型難以內生嚴格的物理守恒定律。如何將顯式的物理約束或仿真器邏輯有效地注入到神經網絡中，使生成結果嚴格遵循物理規律，仍是未解之謎。

3.1.4 推理延遲

（1）現狀：當前3B左右的端到端具身智能大模型推理的時間約50ms (即20Hz)，甚至更慢，如果未來模型參數量>7B，那么推理時間可能會更慢。行業有不同的方法加速動作生成的頻率和順滑度。例如①Figure helix做了快慢雙系統VLA：大模型負責低頻高層規劃（Slow），小模型負責高頻動作執行（Fast）；②PI做了real time chunking：讓機器人執行當前動作時，后臺同步算好下一串動作，已經確定要做的動作不變，沒執行的部分順著之前的動作“補全”銜接上，不用重新訓練模型，就能解決機器人反應慢、動作卡頓抖動的問題；③Gen-0也做了諧波推理加速。

（2）趨勢

①高效能架構變革（Mamba/SSM）：為了解決Transformer隨序列長度增加而呈二次方增長的計算復雜度，Mamba等線性復雜度的狀態空間模型（SSM）架構將逐漸取代或輔助Transformer，成為具身智能模型的新骨干，從而在保持長序列記憶的同時顯著降低推理延遲。

②端側優化：隨著模型參數量向7B+邁進，針對機器人端側芯片（如 Orin、Thor）的INT8/INT4量化、 KV-Cache壓縮以及投機采樣等工程化優化技術將成為標配，以在有限算力下實現大模型的實時運行。

（3）Gap

①算力與功耗：機器人本體的電池續航與散熱限制了板載算力的上限，難以支撐未來百億參數級模型的實時推理。

② 新架構的魯棒性驗證： M a m b a 等非Transformer架構在純文本領域表現優異，但在多模態具身控制任務中的泛化性、穩定性及Scaling能力仍需大規模數據驗證。

3.2 模型參數量

當前的開源模型多以1B（RDT [ 11 ] ）、3B （Pi0[7]）、7B（OpenVLA[6]、Navid[33]）為主。目前Gen-0[34]初步驗證了參數量＞7B的模型才能吃下更多的數據，產生智能涌現。且當模型參數量>7B時，scaling law初步被驗證：預訓練數據量越大，后訓練（SFT、 RL）效果越好。所以未來的模型參數量也可能會出現變大的趨勢。但目前仍沒有頭部公司大規模投入具身智能模型的scaling up。這跟具身智能對實時性的要求高、大模型驗證成本高，以及數據獲取困難有關。

3.3 數據獲取

目前學術界普遍認為物理世界數據量的不足（目前為LLM文本數據量的100,000分之一[35]），是具身智能能力進化的主要挑戰之一。且近期Gen-0[34]對scaling law的驗證，也進一步加劇了具身智能對數據量的需求。

3.3.1 現狀

學術界：學術界目前使用的數據多以開源實采數據和仿真數據為主。開源真實數據集如Google的Open X-Embodiment[36]數據集、智元的Agibot World[37]，還有Droid[38] 等。仿真數據集有MimicGen[39] 、 Libero[40]、Robocasa[41]、RoboTwin[42]，還有近期發布的最大仿真數據集InternData-A1[43]。

產業界：產業界目前使用的訓練數據多為實采數據。例如Google的RT系列、Gemini Robotics、 Physical Intelligence，以及Generalist的Gen0；仿真如Nvidia Gr00t[44]。

3.3.2 數據源特性分析

（1）真實采集數據

優勢：具備天然的物理與視覺保真度，不存在環境空間、視覺渲染或物理動力學方面的差異。且隨著低成本手持設備和智能穿戴技術的發展（如Sunday memo[45]、human-to-robot[46]），實采數據的獲取門檻正在降低，數量有望迎來顯著增長。

劣勢：擴展性與質量的雙重瓶頸。一方面，在機器人尚未實現全自動化之前，依賴人工采集難以滿足海量數據需求；另一方面，數據質量難以標準化，采集人員往往傾向于選擇自己最熟悉、最省力的“舒適區”軌跡，導致數據缺乏對長尾場景和復雜失敗案例的覆蓋，存在潛在的分布偏差。

（2）仿真數據

優勢：高效率與低成本。通過域隨機化（Domain Randomization）等技術，仿真環境能以極低的邊際成本生成多樣性豐富的數據，是進行大規模強化學習（RL）和自主探索的理想場所。

劣勢：虛實鴻溝（Sim-to-Real Gap）。仿真環境在視覺渲染的細膩度，以及接觸力學、摩擦力、軟體形變等物理特性的模擬上，仍與真實世界存在顯著差距，導致僅靠仿真訓練的模型往往難以直接遷移落地。

3.3.3 趨勢

（1）分階段的混合數據策略：基于上述特性，未來的主流訓練范式將根據訓練階段靈活組合數據。預訓練階段：廣泛吸納多種來源的數據（仿真數據+互聯網視頻+存量真實數據），以構建通用的感知與決策基礎；后訓練階段：嚴格篩選高質量的真實世界數據進行微調，以對齊現實物理規律并修正偏差。利用仿真環境進行RL訓練，低成本試錯以掌握復雜技能；部署演進階段（Deployment）：重視真實環境的自主回放（Autonomous Rollout），讓機器人在實際作業中不斷收集新數據并自我更新，形成數據閉環。

（2）采集工具的便攜化與去中心化：數據采集將從依賴昂貴的專業遙操作臂，向基于消費級手持設備（如iPhone）和穿戴式設備的方向發展，通過降低采集門檻來實現眾包式的大規模數據積累。

3.3.4 Gap

（1）Sim-to-Real Gap：盡管視覺層面的差距正在縮小，但接觸動力學的仿真鴻溝仍未被根本解決，限制了仿真數據在精細操作任務中的有效性。

（2）采集設備的普適性：盡管手持設備方案初現端倪，但現有的實采設備在輕便性、操作精度和長時間佩戴的舒適度上仍有待提升，尚未達到能讓普通大眾隨時隨地參與數據采集的理想狀態。

3.3 本體

（1）現狀：硬件是具身智能的物理邊界。工業機械臂和移動機器人如掃地機器人等雖然已經漸漸成熟，但是隨著具身智能的爆發，人們對機器人的追求轉向通用。對于通用機器人來說，目前的靈巧度仍然不足，成本也偏高（10萬，目前有公司沖擊萬元）。

①實用派

工業界實踐證明“通用”不等于“像人”。針對特定場景的多任務需求，非仿生設計（如夾爪、吸盤）在魯棒性和性價比上遠優于靈巧手。

②仿生派

盡管夾爪、吸盤等實用，但Tesla、Figure等頭部玩家依然壓注昂貴類人的五指靈巧手。一方面是為了追求“類人、通用”，另一方面也是為了滿足數據需求：海量的人類視頻數據（如YouTube視頻）。只有機器人的末端形態與人手高度一致，才能最大程度地復用這些數據。

（2）趨勢

模塊化與“瑞士軍刀”模式：為了平衡通用性與專用性，未來的本體可能趨向于通過標準化快換接口，根據任務需求快速切換不同的末端執行器。

（3）Gap

①靈巧與耐用的悖論：這是一個未解的工程難題。目前的硬件陷入了“靈巧的不耐造，耐造的不靈巧”的困境。科研級靈巧手精密脆弱，難以承受工業場景的磨損；而工業級夾爪雖耐用，卻無法完成精細操作。

②觸覺數據：相比于RGB圖像有統一的格式，觸覺數據極度碎片化且缺乏標準。缺乏統一的觸覺表征，導致模型難以通過互聯網數據學習“手感”，限制了機器人進行盲操作（如拿起一張紙）的能力。

③商業落地與技術愿景的割裂：投資市場為“仿生人”買單（看重未來通用性），但工廠客戶只為“功能機”買單（看重當前ROI）。這導致許多企業在融資時展示靈巧手，落地時卻悄悄換回夾爪，造成了技術棧的撕裂。

3.4 生態：場景碎片化，產業鏈長、廠家多

（1）現狀：具身智能缺乏像PC時代的Windows或手機時代的Android這樣的統一操作系統。這意味著，現在的機器人應用與硬件是強綁定的。開發者在A品牌機器人上開發的功能（比如倒咖啡），換到B品牌的機器人上完全無法運行，必須從底層代碼開始重新適配。這種“重復造輪子”的現象極大地浪費了研發資源。

（2）問題：產業鏈過長，廠家眾多。每家的電機、傳感器接口、控制協議都不一樣。集成商為了組裝一臺機器人，往往需要花費大量時間去寫“翻譯代碼”讓這些不同品牌的零件協同工作，導致研發周期長、系統穩定性差。

（3）Gap：缺乏統一的軟硬件接口標準，導致數據難以跨機型（Cross-Embodiment）復用。在GPT等大模型訓練中，所有文本數據都是通用的。但在機器人領域，由于各家機器人的身高、關節數量、傳感器設置都不一樣，數據格式也不同。結果就是，全行業雖然總數據量很大，但卻難以匯聚成訓練通用具身大模型所需的“數據洪流”。需要大量的格式轉換、關節對齊等后處理。

4 未來與落地途徑展望

這一章專門回應“產業”問題，探討如何填補人們愿景中的開放世界中的具身智能當前無法落地的問題。

4.1 路徑一：專用智能

策略：先做專用場景，積累數據，再圖通用。

場景：咖啡機器人、商用清潔、工業巡檢等。

邏輯：

（1）環境可控：這些場景環境相對結構化，邊界清晰，容錯率較高。

（2）商業閉環：企業可以通過解決特定痛點（如招工難、高危作業）快速實現ROI轉正。

（3）數據飛輪：利用在特定場景中回流的真實數據（Data Flywheel），逐步迭代模型的泛化能力，從“專用”慢慢向“通用”滲透。

4.2 路徑二：增強人類路線（智能穿戴）

策略：以人為載體， AI作輔助。不急于制造復雜的機器人本體，而是將具身智能的“感知”與“大腦”能力注入眼鏡、掛件或外骨骼中。

場景：AR智能眼鏡+腕帶（如Meta Ray-Ban[47]）、視障輔助、藍領工人操作指引、個人記憶助理。

邏輯：

（1）避開硬件和智能瓶頸：通過人類在環，繞開了機器人硬件不成熟、軟件智能能力低的問題，利用人類去兜底，AI只作為輔助，就像智駕。

（2）數據金礦：穿戴設備是采集第一人稱視角（Human Egocentric）數據的最佳入口。這些大規模的、包含“手眼協調”的高質量數據正是訓練具身智能模型所需要的。

4.3 路徑三：To C 陪伴與服務策略：情緒價值 > 功能價值。

場景：桌面寵物、陪伴機器人、教育機器人等。

邏輯：

（1）揚長避短：避開高難度的物理操作（如做飯、疊衣），充分利用LLM強大的語言理解和情感交互能力。

（2）高容錯性：在陪伴場景下，用戶對機器人的“笨拙”容忍度極高（甚至被視為可愛），這為技術迭代爭取了寶貴的緩沖期。

5 結語

AI正從離身智能向具身智能發展。

一方面，技術演進的加速度令人振奮。從Level 2 （結構化環境單一任務）向Level 3（多任務/條件泛化）的跨越中，我們見證了端到端大模型（VLA）展現出的泛化潛力，看到了空間智能從2D向3D的維度升維，以及物理世界模型（World Model）對因果律理解的初步嘗試。

另一方面，產業落地的“最后一公里”依然泥濘。標準化缺失、Sim2Real之間難以彌合的物理鴻溝，以及不成熟的技術現狀與低容錯率之間的矛盾，依然是橫亙在實驗室Demo與量產產品之間的巨大挑戰。

未來的具身智能，將不再是單一維度的算法競賽，而是一場系統工程的勝利。在數據上，通過“智能穿戴”與“專用機器人”構建的數據飛輪，將源源不斷地為通用模型輸送燃料，極大緩解數據稀缺的問題；在生態上，隨著軟硬件接口標準的逐步統一，行業將告別“重復造輪子”的作坊時代，迎來模塊化、標準化的爆發期；在形態上，無論是人形機器人、智能眼鏡還是下一代智能終端，它們都將共享同一個強大的“具身大腦”。

最終，具身智能的價值不在于制造出完美的機器工人來簡單替代人類，而在于通過“增強人類”的方式，延伸我們的感知與行動邊界。

具身智能正在使AI從“理解文字”“看懂世界”到“改變世界”。

作者簡介：

王烽，博士，華為技術有限公司高級技術專家，具身智能產業發展委員會副主任委員。畢業于武漢大學電子信息學院，曾任華為云具身智能創新Lab主任。長期致力于端邊云協同架構、具身智能等領域的技術研發與戰略布局，并推動相關領域的產學研深度合作。

毛思通，博士，華為技術有限公司主任工程師，畢業于香港理工大學計算機系。長期從事人工智能與具身智能領域的研究，主要負責具身模型、數據等技術研究研發工作。在ICLR，SIGIR、IEEE TNNLS、IROS、ICRA等國際頂級會議及期刊發表多篇學術論文。

參考文獻：

[1] Xu Z, Wu K, Wen J, et al. A survey on robotics with foundation models: toward embodied AI[J]. arXiv preprint arXiv: 2402.02385, 2024.

[2] Ma Y, Song Z, Zhuang Y, et al. A survey on vision - language - action models for embodied AI[J]. arXiv preprint arXiv: 2405.14093, 2024.

[3] Zitkovich B, Yu T, Xu S, et al. Rt - 2: Vision - language - action models transfer web knowledge to robotic control[C]. Conference on Robot Learning. PMLR, 2023: 2165 - 2183.

[4] Team G R, Abeyruwan S, Ainslie J, et al. Gemini Robotics: Bringing AI into the physical world[J]. arXiv preprint arXiv: 2503.20020, 2025.

[5] Kim M J, Pertsch K, Karamcheti S, et al. Openvla: An open - source vision - language - action model[J]. arXiv preprint arXiv: 2406.09246, 2024.

[6] Black K, Brown N, Driess D, et al. $\pi_0 $: A Vision - Language - Action Flow Model for General Robot Control[J]. arXiv preprint arXiv: 2410.24164, 2024.

[7] Intelligence P, Black K, Brown N, et al. $\pi_ {0.5} $: a Vision - Language - Action Model with Open - World Generalization[J]. arXiv preprint arXiv: 2504.16054, 2025.

[8] Liu S, Wu L, Li B, et al. Rdt - 1b: a diffusion foundation model for bimanual manipulation[J]. arXiv preprint arXiv: 2410.07864, 2024.

[9] Bu Q, Yang Y, Cai J, et al. Univla: Learning to act anywhere with task - centric latent actions[J]. arXiv preprint arXiv: 2505.06111, 2025.

[10] Qu D, Song H, Chen Q, et al. Spatialvla: Exploring spatial representations for visual - language - action model[J]. arXiv preprint arXiv: 2501.15830, 2025.

[11] Wang J, Chen M, Karaev N, et al. Vggt: Visual geometry grounded transformer[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 5294 - 5306.

[12] Lin T, Li G, Zhong Y, et al. Evo - 0: Vision - language - action model with implicit spatial understanding[J]. arXiv preprint arXiv: 2507.00416, 2025.

[13] Huang W, Wang C, Zhang R, et al. Voxposer: Composable 3D value maps for robotic manipulation with language models[J]. arXiv preprint arXiv: 2307.05973, 2023.

[14] Ahn M, Brohan A, Brown N, et al. Do as I can, not as I say: Grounding language in robotic affordances[J]. arXiv preprint arXiv: 2204.01691, 2022.

[15] Huang W, Xia F, Xiao T, et al. Inner monologue: Embodied reasoning through planning with language models[J]. arXiv preprint arXiv: 2207.05608, 2022.

[16] Liang J, Huang W, Xia F, et al. Code as policies: Language model programs for embodied control[J]. arXiv preprint arXiv: 2209.07753, 2022.

[17] Liu Q, Huang T, Zhang Z, et al. Nav - r1: Reasoning and navigation in embodied scenes[J]. arXiv preprint arXiv:2509.10884, 2025.

[18] Zhong Y, Huang X, Li R, et al. Dexgraspvla: A vision - language - action framework towards general dexterous grasping[J]. arXiv preprint arXiv: 2502.20900, 2025.

[19] Shi H, Xie B, Liu Y, et al. Memoryvla: Perceptual - cognitive memory in vision - language - action models for robotic manipulation[J]. arXiv preprint arXiv: 2508.19236, 2025.

[20] Cheng X, Zeng W, Dai D, et al. Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models[J]. arXiv preprint arXiv: 2601.07372, 2026.

[21] 新智元. 奧特曼點名 "AGI最后一塊拼圖"! 記憶，才是硅谷2026新共識[EB/OL]. https://finance.sina.com.cn/stock/ t/2026-01-09/doc - inhfssrt5969682.shtml.

[22] Zhong Y, Jiang Q, Yu J, et al. Dexgrasp anything: Towards universal robotic dexterous grasping with physics awareness[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22584 - 22594.

[23] Yu J, Liu H, Yu Q, et al. ForceVLA: Enhancing VLA Models with a Force - aware MoE for Contact - rich Manipulation[J]. arXiv preprint arXiv: 2505.22159, 2025.

[24] Bar A, Zhou G, Tran D, et al. Navigation world models[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025 : 15791 - 15801.

[25] Zheng W, Chen W, Huang Y, et al. Occworld: Learning a 3D occupancy world model for autonomous driving[C]. European conference on computer vision. Cham: Springer Nature Switzerland, 2024 : 55 - 72.

[26] Zhang Z, Zhang Q, Cui W, et al. Occupancy World Model for Robots[J]. arXiv preprint arXiv: 2505.05512, 2025.

[27] 蔚來. 蔚來智能技術[EB/OL]. https://www.nio.cn/smart - technology/20241120002.

[28] 小鵬汽車. 公司新聞[EB/OL]. https://www.xiaopeng.com/news/company_news/5462.html.

[29] 新浪財經. 新浪財經股票滾動新聞[EB/OL]. https://finance.sina.cn/stock/jdts/2025-08-28/detail - infnpcei5142489. d.html?vt=4.

[30] Zhang J, Wang K, Xu R, et al. Navid: Video - based vlm plans the next step for vision - and - language navigation[J]. arXiv preprint arXiv: 2402.15852, 2024.

[31] Generalist AI. GEN - 0[EB/OL]. https://generalistai.com/blog/nov-04-2025-GEN-0.

[32] Kevin Black @ CoRL 2024 X - Embodiment Robot Learning Workshop

[33] O'Neill A, Rehman A, Maddukuri A, et al. Open x - embodiment: Robotic learning datasets and rt - x models: Open x-embodiment collaboration 0[C]. 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 6892 - 6903.

[34] AgiBot World. AgiBot World: 首個大規模機器人學習數據集與生態系統[EB/OL]. https://agibot - world.com/.

[35] Khazatsky A, Pertsch K, Nair S, et al. Droid: A large-scale in-the-wild robot manipulation dataset[J]. arXiv preprint arXiv: 2403.12945, 2024.

[36] Mandlekar A, Nasiriany S, Wen B, et al. Mimicgen: A data generation system for scalable robot learning using human demonstrations[J]. arXiv preprint arXiv: 2310.17596, 2023.

[37] Liu B, Zhu Y, Gao C, et al. Libero: Benchmarking knowledge transfer for lifelong robot learning[J]. Advances in Neural Information Processing Systems, 2023, 36: 44776 - 44791.

[38] Nasiriany S, Maddukuri A, Zhang L, et al. Robocasa: Large-scale simulation of everyday tasks for generalist robots[J]. arXiv preprint arXiv: 2406.02523, 2024.

[39] Chen T, Chen Z, Chen B, et al. Robotwin 2.0: A scalable data generator and benchmark with strong domain randomization for robust bimanual robotic manipulation[J]. arXiv preprint arXiv: 2506.18088, 2025.

[40] Tian Y, Yang Y, Xie Y, et al. InternData-A1: Pioneering High - Fidelity Synthetic Data for Pre - training Generalist Policy[J]. arXiv preprint arXiv: 2511.16651, 2025.

[41] Bjorck J, Casta?eda F, Cherniadev N, et al. Gr00t n1: An open foundation model for generalist humanoid robots[J]. arXiv preprint arXiv: 2503.14734, 2025.

[42] Sunday.ai. Sunday.ai: 由AI驅動的一站式數據問答與分析平臺[EB/OL]. https://www.sunday.ai/.

[43] Kareer S, Pertsch K, Darpinian J, et al. Emergence of Human to Robot Transfer in Vision-Language-Action Models[J]. arXiv preprint arXiv: 2512.22414, 2025.

[44] Long X, Zhao Q, Zhang K, et al. A Survey: Learning Embodied Intelligence from Physical Simulators and World Models[J]. arXiv preprint arXiv: 2507.00917, 2025.

[45] Meta. Meta Ray-Ban 智能眼鏡：內置Meta AI的顯示技術[EB/OL]. https://www.meta.com/tw/ai-glasses/meta-ray-ban- display/.

摘自《自動化博覽》2026年第一期暨《2026具身智能專刊》

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

資訊頻道

熱點新聞

推薦產品