具身智能仿真平臺研究與測試-資訊-控制網

具身智能仿真平臺研究與測試

點擊數：2486 發布時間：2026-02-10 10:37:28
分享到：

具身智能作為人工智能與物理世界交互的直接形態，正成為全球科技競爭的戰略制高點。仿真平臺作為具身智能算法訓練與驗證的關鍵基礎設施，是智能體從虛擬走向現實的關鍵載體。本文對具身智能仿真平臺的典型功能、發展現狀開展研究，提出了具身智能仿真平臺評測指標，并以某款國產具身智能仿真平臺為例，開展功能完備性與性能效率評估，最后對具身智能仿真技術的未來發展方向進行了展望。

關鍵詞：

中國信息通信研究院唐天旭，于青民，張蔚敏，田霞中移（杭州）信息技術有限公司周偉剛，翟尤

1 引言

隨著人工智能（Artificial Intelligence，AI）技術從單純的信息處理向物理交互邁進，具身智能（Embodied Artificial Intelligence， EAI）已成為全球科技競爭的新高地。過去十年，具身智能從早期單一任務控制研究逐步邁向多任務通用智能研究[1]，尤其是在2024至2025年間，具身智能產業在中國迎來了爆發式增長，被視為新一代人工智能技術的重要浪潮。在這一進程中，仿真平臺作為具身智能的“數字搖籃”與“訓練場”，其戰略地位變得前所未有地重要。具身智能仿真平臺不僅是算法驗證的低成本環境，也能夠緩解真實物理世界具身智能數據匱乏問題，低成本、高效率、高安全性地使具身智能完成數萬次的模仿學習與強化學習交互演練。

2 具身智能仿真平臺的典型功能與發展現狀

具身智能仿真平臺的典型功能通常包括：物理與渲染引擎系統、三維資產生成、數據合成功能。隨著新興技術的發展，世界生成模型成為了數據合成功能的新路徑。

2.1 物理與渲染引擎系統

物理與渲染引擎是仿真平臺的底層支柱和計算核心，決定了虛擬環境的保真度與交互的有效性。

物理引擎系統的主要職能是執行剛體動力學的數值模擬，能夠為機械臂抓取、移動機器人導航等具身智能任務提供符合物理定律的交互環境。剛體是指在受力或運動過程中，形狀和大小均保持不變的理想化物理模型。在仿真環境中，各類具身智能形態如機械臂、人形機器人或機器狗，通常都被抽象為多剛體系統，由多個剛體連桿通過關節連接而成。物理引擎通過經典力學原理與運動學約束進行受力分析，在具身智能任務中模擬物體的運動軌跡，計算剛體在碰撞、摩擦等物理交互過程中的實時狀態與變化。典型的物理引擎功能如圖1所示。

圖片1.png

圖1 物理引擎功能

渲染引擎系統用于構建高保真感知環境，視覺是具身智能體獲取環境信息的主導模態，該系統的核心職能在于為具身智能生成逼真的視覺數據，而光線追蹤（Ray Tracing）技術是實現增強視覺渲染保真度的關鍵手段。光線追蹤是一種通過模擬光線在三維場景中的傳播路徑來生成逼真圖像的計算機圖形學技術，其核心原理包括光線發射、交點檢測、遞歸追蹤及光照計算，能夠精確呈現反射、折射和全局光照效果[2]，從而為具身智能提供更接近真實世界的視覺信息，顯著緩解仿真與現實之間的視覺分布差異。典型的渲染引擎系統與光線追蹤技術如圖2所示。

圖片2.png

圖2 渲染引擎系統與光線追蹤技術

目前，在具身智能仿真平臺領域，物理引擎與渲染引擎正逐漸實現深度融合。新一代具身智能仿真平臺集成多種物理求解器和光線追蹤渲染，將可微分性納入考量，并引入生成式AI重塑場景構建流程，具身智能仿真平臺正在實現從純算法模擬向生成式仿真的演進。此外，物理引擎與渲染引擎均需要大量計算，具身智能仿真平臺普遍采用GPU加速的并行計算架構快速生成任務實例，為具身智能模型的大規模并行強化學習提供了物理保障。

2.2 三維資產生成

三維資產是構建復雜仿真場景的原子單位。隨著生成式AI技術的發展，資產生成正從手動建模向自動化生成演進。

自動化生成機制允許系統根據文本描述、草圖或單張參考圖像自動合成3D模型。生成的資產不僅包含視覺網格，還自動配置了物理屬性，如碰撞幾何體與轉動慣量。可動性建模是具身智能資產生成的重點，平臺需確保生成的物體如抽屜、櫥柜等具備正確的機械結構與運動自由度。通過集成程序化布局算法，平臺能夠將孤立的資產按照邏輯規則自動組合為具備語義一致性的復雜場景，為智能體提供多樣化的交互對象。圖3展示了輸入二維圖像生成三維資產的過程。

圖片3.png

圖3 二維圖像生成三維資產技術

2.3 數據合成及世界模型生成

數據合成是具身智能仿真體系中的系統化工程手段，旨在解決真實場景下樣本稀缺、標注成本高昂的難題。作為一種工業化的數據生產系統，其核心職能是將可交互的環境轉化為結構化、規模化的訓練資源。該過程關注數據生成流水線的構建，涵蓋任務調度、自動化采樣、分布控制及自動標注等環節，利用可控的仿真參數及自動化采樣機制，能夠批量生成多模態訓練樣本。例如，許華哲團隊提出的DemoGen方法[3]，能以一條人類演示為“種子”，自動合成出大量包含空間變化、避障等行為的操作數據，極大地節省人力成本。

世界模型（World Models）是一種新興的具身智能數據合成的關鍵技術，作為一種概率生成模型，其基本邏輯是建立環境狀態、動作與未來觀測之間的映射關系，核心目的是理解環境動態并計算下一時刻演化，從而支持智能體后續的決策規劃[4]。對比傳統仿真環境，世界模型通過大規模視頻數據學習，通常擁有更逼真的光影效果、紋理細節，同時能夠根據文本或圖像指令，生成無限種類的物體形狀、材質或環境布局，相較于傳統數據合成技術，世界模型在對流體、軟體、布料等在傳統物理引擎中難以模擬的高復雜度物理模型處理方面有著更加顯著的優勢，可直接通過像素級動力學學習，無需復雜數學建模，直接模擬出相關視覺表現。典型的世界模型生成技術處理流體的案例如圖4所示。

圖片4.png

圖4 世界模型生成的視覺視頻

世界模型的具體實現方式有多種：從基于模型的強化學習（Model-based Reinforcement Learning， MBRL） [5] ，模擬未來世界可能的發展軌跡，根據預測結果作出決策；到聯合嵌入預測架構（Joint Embedding Predictive Architecture，JEPA） [6]，包含處理感官數據的感知模塊，以及評估這些信息、有效體現世界模型的認知模塊，在抽象的特征空間中進行預測并引入雙系統機制；再到基于大語言模型（Large Language Model，LLM）的世界模型以及視頻世界模型。目前世界模型通常被認為需要滿足以下關鍵條件：物理一致性與因果推理能力、長程時空預測能力、交互性以及多模態融合感知能力。李飛飛[7]等學者將物理一致性與因果推理能力、長程時空預測能力統稱為生成性，即能生成語義、幾何及物理一致的三維模擬環境；交互性指能根據動作預測系統狀態變化，使智能體能夠在模型內部進行試錯探索，通過預測不同決策的后果來優化行為策略；多模態融合感知能力指可處理圖像、視頻、深度、文本等任意輸入模態，從而增強模擬真實感并提升模型在復雜交互場景中的適應性與泛化能力。

2.4 產業發展現狀

全球范圍內，NVIDIA Isaac Sim[8]依托Omniverse生態和PhysX物理引擎，在實時光線追蹤與大規模GPU并行仿真領域處于全球領先地位。AI2-THOR[9]是AllenAI開源的高精度具身智能仿真平臺，利用前端Python API調用操作并通過服務器發送到Unity交互，主要用于視覺導航和目標交互任務。 Gazebo[10] 因其與ROS（機器人操作系統）有著深度集成并使用多種物理引擎而成為機器人開發的標準工具之一。Meta開發的Habitat[11]平臺通過不斷迭代創新，擴展了虛擬機器人的可訓練任務類型： Habitat 1.0可訓練虛擬機器人以高速在物理世界房屋的3D掃描中導航，Habitat 2.0引入了交互式環境， Habitat 3.0則支持虛擬機器人和人形化身，使它們能夠完成日常任務中的人機協作任務。 Google的PyBullet[12]基于開源物理引擎bullet開發，封裝成了Python的一個模塊，用于機器人仿真和學習，因其開源屬性與輕量化特性在學術界應用廣泛。

國內方面，中國本土力量正在通過“原生創新”與“產業集成”兩條路徑實現追趕突圍。 CMU機器人研究所研發的Genesis[13]平臺，是一款從頭開始重建的通用物理引擎，并實現了與生成式AI的深度耦合。該平臺能夠無縫整合文本、圖像、音頻和3D對象等多種模型，從而實現物理仿真的復雜對象和場景。相較于現有基準，Genesis仿真速度在仿真速度與跨平臺兼容性方面有著核心優勢。國家地方共建人形機器人創新中心聯合上海大學、清華大學發布的具身智能仿真平臺“格物”[14]基于Unity RL Playground強化學習框架，集成先進多模態運動控制技術，通過自動化流程體系加速算法迭代，并優化了從仿真到現實的遷移效率。騰訊Robotics X實驗室與福田實驗室聯合發布的具身智能開放平臺Tairos[15]，以模塊化方式集成大模型、開發工具和數據服務。平臺包含模型算法層和云服務層，通過標準化接口和SDK提供服務，支持仿真訓練與硬件對接。云端仿真環境預設多個機器人、場景任務、交互動作及可操作物體，支持高級位移、物體分解等功能。智元機器人推出的AgiBot Digital World[16] 以英偉達Isaac Sim為底層開發平臺，集成三維資產、專家軌跡生成機制和模型評估工具，基于高保真模擬、域隨機化、數據增強等手段，該平臺能夠自動生成大規模專家軌跡數據。中移具身智能創新中心的仿真平臺旨在支持專業化訓練場搭建。可生成大規模高質量訓練數據，并覆蓋四足、輪式及雙足等多類型機器人的全流程訓練與性能測試。

與此同時，以摩爾線程為代表的國產GPU廠商在硬件算力領域上取得的突破，為構建自主可控的仿真基礎設施奠定了物理基礎，但在統一計算設備架構（CUDA）生態兼容性優化及專用物理加速庫的建設方面，仍面臨諸多現實挑戰。

3 具身智能仿真平臺可用性測試評估基準

由于不同具身智能仿真平臺的技術路徑、底層引擎及硬件優化策略存在顯著差異。為衡量具身智能軟件系統的基礎可用性與運行效率，中國信通院參考《GB/ T 25000.51-2016系統與軟件工程系統與軟件質量要求和評價（SQuaRE）第51部分：就緒可用軟件產品（RUSP）的質量要求和測試細則》標準，提出功能性驗證與性能效率量化兩個仿真平臺能力評測維度。

3.1 功能性測評指標

功能性測評主要關注具身智能仿真平臺各項核心能力是否達到預期設計要求。

平臺基礎功能：驗證主界面及仿真功能的可用性與正確性，確保用戶能夠準確配置仿真參數，3D渲染仿真功能、3D物理引擎仿真功能、數據資產生成功能等三大類仿真功能可用。

3D渲染仿真功能：驗證具身智能仿真平臺的3D渲染功能操作正常，包括添加場景、添加平面、點光源、導入機器人和對象修改等，并能順利運行得到期望結果。

3D物理引擎功能：驗證具身智能仿真平臺的3D物理引擎功能操作正常，包括添加剛體、修改和查看屬性，同時物理交互結果符合預期情況。

數據資產生成功能：驗證具身智能仿真平臺的數據資產生成功能正常，包括生成合成數據功能、生成3D資產功能和數據資產生成世界模型功能，要求滿足物理屬性和運動交互合理性，并輸出反饋指標。

3.2 性能效率指標

性能效率主要關注仿真訓練的穩定性和大規模擴展性。

資源占用率：在執行大規模渲染、剛體模擬任務或組合、交互任務時， CPU、GPU、內存占用值在合理范圍內，以防系統崩潰或任務失敗。

渲染穩定性：在大規模粒子系統（如100萬個粒子）及復雜組合物體渲染任務中，系統保持穩定的幀率，無卡頓或閃退。

物理計算效能：在大規模剛體或三角網格碰撞任務中，物理每幀耗時是核心指標，反映了平臺物理計算效能和算法先進程度。

數據合成任務可靠性：仿真平臺應具備極高的數據生成成功率與穩定的生成速度。

4 具身智能仿真平臺測試實例

本文依據測試評估基準，對國內某款新研發的具身智能仿真平臺按提出的評估基準進行測試驗證。測試GPU及服務器均采用國產， GPU型號為摩爾線程Moore Thereads S300 MT vGPU-1101，服務器型號為摩爾線程MCCXD800，32核CPU、512G內存、4T硬盤。測試結果如下：

功能測試中，該具身智能仿真平臺具備三維物理模擬、視覺渲染、三維資產生成、仿真數據合成和世界模型等多樣化能力，全面覆蓋仿真平臺基礎應用需求；性能測試中，依托普通家用臺式電腦與摩爾線程國產化GPU（Moore Threads S3000 MTvGPU-1101），該具身智能仿真平臺物理引擎最高支持10萬三角網格或10萬剛體的碰撞模擬，渲染引擎最高可承載100萬粒子的實時渲染。其中，數據合成任務中以“抓取-放置”典型任務為例測試，一組數據為250條視頻，合成數據任務運行時，數據生成成功率為100%，生成速度為2.48條/分鐘，一組數據大小為4.71GB。

根據上述測試數據分析，該國產具身智能仿真平臺在功能完備性上符合設計預期，能夠支持從基礎場景構建到復雜世界模型生成的全流程任務。在性能效率維度，平臺展現了優異的并行計算能力，特別是在大規模粒子渲染與高頻物理碰撞預測中保持了較低的系統開銷，也說明了國產核心硬件設備能夠支撐具身智能仿真平臺的一般需求。

5 結束語

具身智能仿真平臺相較實訓平臺有著數據生成效率高、生成場景多樣、訓練安全性高、數據泛化性好等優勢。本文深入探討了具身智能仿真平臺的核心功能架構，包括物理渲染引擎、數據合成、三維資產生成及世界模型生成等關鍵技術。針對當前行業缺乏統一量化標準的現狀，本文構建了一套涵蓋功能性驗證與性能效率量化的可用性測試評估基準，并對某款國產仿真平臺開展實測驗證，證明了國產硬件搭載國產具身智能仿真平臺的可用性。

6 挑戰與未來展望

具身智能仿真技術已取得顯著進展，但在Sim-to- Real上還有長足優化空間，虛擬環境在摩擦力、流體力學及傳感器噪聲等方面與真實世界仍然存在失真，可能導致算法遷移過程中性能下降。針對仿真與現實環境的性能差異，未來我們計劃由任務成功率、現實環境參數采集比對等方面入手提出新的測試評估標準，在“可用性”與“生成效率”的基礎上加入“數據實用性”與“保真度”等指標，以評判仿真平臺對現實模擬的保真度。

作者簡介：

唐天旭（2001-），男，湖南邵陽人，研究生在讀，現就職于中國信息通信研究院，研究方向為5G+工業互聯網、具身智能。

于青民（1991-），女，山東煙臺人，高級工程師，碩士，現就職于中國信息通信研究院，研究方向為工業互聯網、復雜系統控制與優化。（本文通信作者）

張蔚敏（1990-），女，內蒙古呼和浩特人，高級工程師，碩士，現就職于中國信息通信研究院，研究方向為人工智能標準化及產業研究，包括具身智能、 AIGC、基準測試等。

田霞（1998-），女，山西大同人，助理工程師，碩士，現就職于中國信息通信研究院，研究方向為人形機器人、具身智能、電信服務業等。

周偉剛（1992 - ），男，湖北人，中級工程師，碩士，現就職于中移（杭州）信息技術有限公司，研究方向為機器人仿真及運控。

翟尤（1998-），女，河南人，碩士，現就職于中移（杭州）信息技術有限公司，研究方向為具身智能仿真及數據生成相關領域。

參考文獻：

[1] Liu Y, Chen W, Bai Y, et al. Aligning cyber space with physical world: A comprehensive survey on embodied AI[J]. IEEE/ASME Transactions on Mechatronics, 2025.

[2] 盛斌. 虛擬現實理論基礎與應用開發實踐[M]. 上海交通大學出版社, 2019.

[3] Xue Z, Deng S, Chen Z, et al. Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning[J]. arXiv preprint arXiv:2502.16932, 2025.

[4] Ding J, Zhang Y, Shang Y, et al. Understanding world or predicting future? a comprehensive survey of world models[J]. ACM Computing Surveys, 2025, 58 (3) : 1 - 38.

[5] Ha D, Schmidhuber J. Recurrent world models facilitate policy evolution[J]. Advances in neural information processing systems, 2018, 31.

[6] LeCun Y. A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27[J]. Open Review, 2022, 62 (1) : 1 - 62.

[7] LI F F. From Words to Worlds: Spatial Intelligence is AI's Next Frontier [EB/OL]. (2025-11-10) [2026-01-08]. https:// www.worldlabs.ai/blog/from-words-to-worlds-spatial-intelligence-is-ais-next-frontier.

[8] NVIDIA. NVIDIA Isaac Sim [EB/OL]. (2021) [2026-01-08]. https://developer.nvidia.com/isaac-sim.

[9] Kolve E, Mottaghi R, Han W, et al. Ai2-thor: An interactive 3D environment for visual AI[J]. arXiv preprint arXiv:1712.05474, 2017.

[10] Koenig N, Howard A. Design and use paradigms for gazebo, an open-source multi-robot simulator[C]. 2004 IEEE/RSJ international conference on intelligent robots and systems (IROS)(IEEE Cat. No. 04CH37566). Ieee, 2004, 3 : 2149 - 2154.

[11] Savva M, Kadian A, Maksymets O, et al. Habitat: A platform for embodied AI research[C]. Proceedings of the IEEE/ CVF international conference on computer vision. 2019: 9339-9347.

[12] Coumans E, Bai Y. Pybullet, a python module for physics simulation for games, robotics and machine learning[EB/ OL]. (2016-1-28)

[13] Gan C. Genesis: A Generative and Universal Physics Engine for Robotics[C]. IEEE International Conference on Robotics and Automation. 2025.

[14] Ye, Linqi, Boyang Xing, Bin Liang, Lei Jiang, Yan Peng, "Gewu Playground: An Open-Source Robot Simulation Platform for Embodied Intelligence Research." Science China: Technological Sciences. (2025).

[15] Tencent Robotics X. Tairos [EB/OL]. (2025) [2026-01-08]. https://tairos.tencent.com.

[16] 智元機器人. AgiBot Digital World [EB/OL]. (2025) [2026-01-08]. https://agibot-digitalworld.cn.

摘自《自動化博覽》2026年第一期暨《2026具身智能專刊》

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

資訊頻道

熱點新聞

推薦產品