• <menu id="qseaa"><tt id="qseaa"></tt></menu><nav id="qseaa"><tt id="qseaa"></tt></nav>
    <optgroup id="qseaa"><tt id="qseaa"></tt></optgroup>
  • <object id="qseaa"><acronym id="qseaa"></acronym></object><input id="qseaa"></input>
    <menu id="qseaa"></menu>
  • <nav id="qseaa"><u id="qseaa"></u></nav>
  • <object id="qseaa"></object>
  • <input id="qseaa"></input><menu id="qseaa"></menu>
  • <s id="qseaa"></s>
  • <menu id="qseaa"><u id="qseaa"></u></menu>
  • <input id="qseaa"></input>
    ABB banner26年4月
    關注中國自動化產業發展的先行者!
    人工智能+制造融合創新研討會
    2026中國自動化產業年會
    2025工業安全大會
    OICT公益講堂
    當前位置:首頁 >> 資訊 >> 行業資訊

    資訊頻道

    基于端側大模型芯片的具身智能
    • 點擊數:2687     發布時間:2026-02-10 11:13:13
    • 分享到:
    人工智能技術正經歷從“云端集中式”向“邊緣分布式”的重要演進,端側AI作為這一演進的核心方向,已成為推動智能終端爆發的關鍵力量。具身智能(Embodied AI)作為這一轉型的典型體現,指的是AI代理通過感知物理環境、作出決策并執行行動的閉環系統,與傳統的離身智能(僅限于語言或視覺處理)相比,它更強調與物理世界的交互。這種轉變不僅源于計算范式的演進,還受市場需求、隱私法規和政策導向的驅動。政策層面,中國國務院《關于深入實施“人工智能+”行動的意見》(國發〔2025〕11號)明確提出,到2027年實現智能體終端普及率達到70%[1],為行業發展提供了明確指引。
    關鍵詞:

    南方科技大學 謝齊家,李逸翔,彭冠旗,湯易博,陳文俊,阮理揚,覃冠臻,陳啟致

    深圳市邁特芯科技有限公司 吳土孫,曹敏

    南方科技大學,深圳市邁特芯科技有限公司 劉嘉,余浩

    1  引言

    人工智能技術正經歷從“云端集中式”向“邊緣分布式”的重要演進,端側AI作為這一演進的核心方向,已成為推動智能終端爆發的關鍵力量。具身智能(Embodied AI)作為這一轉型的典型體現,指的是AI代理通過感知物理環境、作出決策并執行行動的閉環系統,與傳統的離身智能(僅限于語言或視覺處理)相比,它更強調與物理世界的交互。這種轉變不僅源于計算范式的演進,還受市場需求、隱私法規和政策導向的驅動。政策層面,中國國務院《關于深入實施“人工智能+”行動的意見》(國發〔2025〕11號)明確提出,到2027年實現智能體終端普及率達到70%[1],為行業發展提供了明確指引。

    圖片1.png

    圖1 端側大模型的具身智能化

    端側AI興起的深層邏輯在于其能夠有效解決云端AI存在的延遲高、隱私風險大、依賴網絡連接等問題。英偉達CEO黃仁勛指出: “未來AI推理的需求可能是今天的十萬億倍”,其中大部分需求將由端側場景承載。然而,當前端側大模型推理面臨結構性瓶頸:傳統架構沿用云端GPU的算力堆砌模式,導致功耗高(5W)、帶寬利用率低(<40%)和成本難以控制。這些挑戰限制了具身智能在實際場景中的落地。

    圖片2.png

    圖2 “云-邊-端”具身推理部署

    在此背景下深圳市邁特芯科技有限公司(以下簡稱:邁特芯科技)與南方科技大學的聯合團隊針對手機、平板、PC及具身智能市場,聚焦個人智能體本地化部署需求,推出了一套自主可控的軟硬件全棧解決方案。該方案依托新一代高能效、高帶寬、低成本的國產端側AI芯片,配套自研SDK與AIOS操作系統,提供了AI任務本地化部署的一站式國產解決方案。

    該方案涵蓋軟硬件兩大核心層面。在硬件層面,首代AI推理芯片已在VCU128 FPGA平臺完成驗證,成功部署7B模型且推理速度達75Token/s,性能處于國際領先水平;量產芯片采用全自主國產28nm工藝結合3D堆疊封裝,憑借獨創的“立方脈動架構”及3D分布式I/O技術有效突破工藝瓶頸,實現了芯片功耗低于5W、帶寬利用率超80%、目標推理性能達100tps的性能指標,在完全國產化前提下能效比超越競品10倍,目前正與國內頭部終端大廠聯合開發,預計2026年實現量產。此外,面向端側具身智能持續進化的需求,本方案還設計了推訓一體的“小腦”芯片,通過與作為“大腦”的推理芯片異構集成,為實現在實機環境下的測試時訓練(Test-time training)提供核心算力支撐。在軟件層面,本方案確立了“大腦+小腦”的新硬件范式,開發了配套的高性能驅動SDK,支持大語言模型(LLM)、視覺-語言-動作模型(VLA)及視覺-語言-導航模型(VLN)等模型的快速部署,并構建了面向個人智能體及具身智能的AIOS操作系統,全面兼容RGB-D相機、激光雷達等傳感器及機械臂、足式機器人等執行器,實現了多場景、多任務的高效協同與快速落地。

    本文通過對以上技術方向的市場需求、技術進展與瓶頸進行分析,并最終對邁特芯科技提出的具身智能系統方案進行全方位闡述。

    2  VLA市場需求及目前技術進展和瓶頸

    具身智能及相關VLA領域正處于快速增長初期。多家市場分析機構預測,全球具身智能市場規模在2025年~2030年間將保持高速增長,年復合增長率預計超過15%,部分研究甚至提出可能達到39%[2,3,4]。在工業應用方面,市場需求正從單純的產能擴張轉向智能化升級,特別是在倉儲物流與精密裝配等環節,業界迫切需要能夠理解自然語言指令(如分揀出紅色的受損零件),并具備對未見物體進行零樣本泛化(Zero-Shot Generalization)能力的智能體,以替代成本高昂且適應性有限的傳統視覺系統。

    2025年,以Physical Intelligence的Pi系列模型[5,6]及開源社區的WALL-OSS為代表的新進展,推動了該領域技術架構的顯著演進。針對動作連續性與平滑性問題,Pi0模型[5]引入了流匹配(Flow Matching)機制,摒棄了傳統的離散令牌分類方法,轉而學習從高斯噪聲到目標動作分布的向量場,實現了高精度連續控制,顯著提升了靈巧操作性能。Pi*0.6模型[6]通過Recap算法實現了從離線模仿學習到在線學習的跨越。該模型采用優勢調節機制,能夠從自身交互經驗中持續學習,并在推理階段引導模型輸出高優勢動作,從而顯著降低復雜任務的失敗率。開源社區的WALL-OSS模型[7]通過統一跨層思維鏈與混合專家架構,探索了在單一模型中高效協同高層語義推理與底層運動控制的方法,為VLA技術的普及與多樣化發展提供了重要參考。

    盡管VLA模型展現出顯著潛力,但其從實驗室到真實開放場景的規模化應用仍面臨“泛化性—魯棒性—實時性—端側部署”這一多維約束下的系統性挑戰。

    (1)VLA模型的泛化性能仍受數據規模與質量的雙重制約。研究證實機器人學習存在類似于LLM的擴展律,LingBot-VLA[8]表明即便在2萬小時真實數據下性能仍未飽和,揭示了巨大的數據缺口。同時,Open X-Embodiment[9]項目聚合了22種機器人平臺的150萬條軌跡,證明了提高數據規模的跨具身訓練能顯著提升模型對新物體和新場景的泛化能力(正向遷移提升50%~200%)。

    (2)環境適應性與系統魯棒性不足是制約實際部署的核心瓶頸。為解決分布外(OOD)泛化失效, WorMI[10]框架引入世界模型庫,通過檢索與融合機制實現零樣本環境適應。此外,測試時適應(Test-Time Adaptation)技術如Cal-QL[11]及其變體允許模型在部署階段根據環境反饋持續更新策略,增強了系統在不可見干擾下的魯棒性。

    (3) 大模型推理的延遲(通常>200ms)與精細操作對高頻控制(>20Hz)的需求存在結構性矛盾[12]。主流方案是HPE(層級規劃與執行)架構,將系統解耦為低頻的VLM“慢規劃”與高頻的傳統“快執行”控制器,即由大模型生成高層指令,由輕量化控制器或傳統方法完成高頻執行,但如何實現兩級系統間穩定、高效的銜接,仍需進一步探索。

    (4)隱私安全需求與端側資源受限之間的矛盾,構成實際部署中的重要約束。然而,邊緣設備需同時滿足大模型推理的算力需求、低功耗約束,并保留一定的在線學習能力以適應環境變化,這對當前芯片的能效比、存儲帶寬及系統級優化提出了嚴峻挑戰。

    針對上述技術瓶頸,本方案采用“云-邊-端”協同架構以攻克具身智能部署的“最后一公里”難題。首先,云端利用海量數據集完成模型預訓練,賦予智能體通用的語義理解能力與跨域泛化基礎;其次,邊緣端通過采集目標環境的少量高質量數據進行監督微調,確保智能體具備可靠的初始任務成功率;最終,在端側部署階段,依托“大小腦”異構芯片架構實現測試時適應,即由推理芯片負責高頻實時的任務決策,推訓一體芯片則在后臺基于真機交互數據進行持續強化學習。通過構建“云-邊-端”分級算力體系與“預訓練-微調-自適應”的算法閉環,本方案有效兼顧了系統的高魯棒性、數據隱私安全與低延遲響應需求;實測表明,該方案可將新環境的遷移部署時間縮短至24小時以內,且遷移成功率超過90%。

    3  VLN市場需求及目前技術進展和瓶頸

    VLN(Vision-and-Language Navigation)的需求來自移動機器人在物流與室內服務場景的規模化部署:企業希望用自然語言直接下達“到房間/到物體旁/按順序完成”的語義任務,以降低路線配置與運維成本。IFR數據顯示,2024年專業服務機器人全球銷量超過199,000臺,其中運輸與物流類為102,900臺;倉儲自動化市場2024年約221億美元,預計2030年達578億美元[13]。這些趨勢推動導航從“幾何到點”升級為“語義可達+可交互+低運維”。

    VLN研究從“跟隨語言到終點”擴展為“更強語義對齊+推理+泛化”。模型從端到端策略學習演進到跨模態Transformer與記憶建模,更強調語言約束下的持續決策;同時引入VLM/LLM能力并擴展輸入接口以提升魯棒性,例如Mobile-R1引入深度信息[14] , OmniVLA加入GPS坐標與圖片信息[15]。但能力提升的代價是模型與鏈路變重,延遲與算力成本上升并成為落地硬約束:大模型+長上下文/記憶/多輪推理抬高單步決策時延;多模態接口擴展帶來數據吞吐、預處理與融合開銷,使“模型延遲”演化為“系統延遲”;難以端側部署時,上云推理疊加傳輸與排隊形成秒級甚至更高延遲,且尾部抖動在動態避障場景中放大安全風險。因此,本地部署成為關鍵。

    針對“長程不可控+延遲不可控”,本方案采用“芯-模-端-智”分層閉環:上層“大腦”檢索語義地圖,在語義拓撲上規劃A→D并拆分為A→B→C→D,使每次只需到達局部可觀測/可規劃的“下一子目標”,將長程任務轉化為短程子任務并提供糾錯骨架;端側LPU本地部署Qwen3 7B-VL,以約2Hz輸出局部導航意圖/局部路徑(慢系統),顯著降低端到端時延;同時以Diffusion動作頭約30Hz生成連續控制動作(快系統),把慢系統意圖轉成高頻可跟蹤動作以滿足實時閉環控制。通過“全局分段—端側局部規劃—高頻控制”的時間尺度分離,實現長程可用與實時部署的統一。

    4  多智能體系統市場需求及目前技術進展和瓶頸

    隨著工業5.0的推進,具身智能正經歷從單體執行向復雜群體協同的范式變革。權威數據顯示,全球具身智能市場預計在2025~2030年間以39.0%的復合年增長率爆發,規模到2030年將達230.6億美元[3]。核心驅動力源于物理場景對“非結構化協同”的迫切需求:在柔性制造中,生產模式向“小批量、多品種”轉型,要求機器人集群具備極強的自適應與任務拆解能力,以完成復雜工件的協同搬運與精密裝配。未來的技術重心將從單純的自動化控制轉向以人為本、認知驅動的韌性協同,實現語義級的深度交互。

    當前技術正從傳統的MADDPG、QMIX等強化學習(MARL)框架向地基模型(FM)驅動的認知架構演進。雖然MARL通過中心化訓練解決了部分非平穩性問題,但在落地中仍面臨嚴峻挑戰: 一是“虛實遷移(Sim-to-Real)”鴻溝顯著,智能體難以在現實動態環境中泛化;二是樣本效率低下,數百萬次試錯導致算力成本極高[16]。此外,系統面臨“算力-實時性-功耗”的三角沖突,邊緣設備難以支撐大語言模型的高頻推理[17]。引入LLM/VLM雖增強了語義理解,但在物理執行中仍存在長程任務幻覺累積、語義共識缺失以及分布式決策可解釋性不足等關鍵瓶頸。

    針對上述挑戰,本方案在推理芯片上采用3D封裝和針對大模型特殊優化的硬件架構,為邊緣側多智能體的高頻推理提供了低功耗、高帶寬的底層支撐,確保了復雜協同任務的實時性。此外,過額外的“小腦”芯片,支持實機環境下的測試時訓練,使得智能體能從實時交互經驗中持續在線學習,有效收窄仿真與現實的鴻溝,并提升在動態環境中的泛化效率。依托AIOS操作系統,實現端側大模型與多類傳感器、執行器的深度解耦與高效協同。系統支持VLA/VLN模型快速部署,通過感知-決策-執行的閉環控制,將高層語義指令精準轉化為物理動作,增強分布式決策的可解釋性與執行一致性。

    5  邁特芯具身智能系統方案

    基于以上市場分析與技術研究,邁特芯科技提出“一種基于端側AI大模型芯片的具身智能系統方案”。該方案打破了國外技術壟斷,實現了從芯片、大模型智能體、實機訓練算法到AIOS全面自主創新和全棧自主可控,技術指標國際領先,保障國家產業鏈供應鏈安全。

    圖片3.png

    圖3 基于端側大模型芯片的具身智能方案: 

    主控芯片(OS+接口)+大腦芯片(LPU語言推理)+小腦芯片(DiT+RL動作反饋)

    如圖3所示,整個AIOS系統底層基于自研的異構芯片系統,即主控芯片+大腦芯片+小腦芯片。三顆核心芯片各司其職,共同構成具身智能體的“神經中樞”:

    (1)主控芯片(SoC):作為系統的調度中樞,負責運行整個OS底層系統實現接口驅動、多模態數據的調度、動態指令編譯及訓練數據集管理。

    (2)大腦芯片(LPU Chip) :專注于高層語義理解與環境感知,部署多模態大語言模型。

    (3)小腦芯片(DiT-RL Chip): 專注于底層動作生成與自適應訓練,部署基于擴散模型的動作生成層及強化學習反饋機制。

    三者通過高速互聯總線協同工作:主控芯片將任務指令和感知環境數據分發給大腦芯片;大腦芯片進行語義解析和環境理解后輸出的高維狀態特征傳輸至小腦芯片;小腦芯片生成具體動作傳回主控芯片進行動作執行,并根據環境反饋數據生成獎勵信號,在本地計算損失并更新動作生成網絡的權重,完成自進化閉環。

    依托“大小腦”異構芯片系統的算力底座,本方案構建了包含VLA高效量化部署與真機強化學習在內的核心算法框架。針對具身智能跨形態、多任務的復雜應用場景,系統集成了語言交互、多模態環境感知及反饋閉環等通用功能模塊,確保了在異構機器人平臺上的本地化快速部署。作為軟件生態核心,AIOS系統具備極高的兼容性與擴展性,全面支持不同架構的VLA模型、多級量化精度及各類硬件底座;通過打造標準化的AIOS軟件生態,本方案顯著降低了軟硬件適配門檻與二次開發成本,有力支撐開發者實現具身智能應用的快速落地。

    5.1   “大小腦”異構芯片方案

    邁特芯針對具身智能場景創新性地提出了“SoC + LPU + DiT-RL Chip”三芯片異構協同的“大小腦”解決方案。該方案通過硬件層面的物理算力解耦與軟硬件協同設計,在端側構建了“推理-執行-反饋-學習”的完整閉環。系統能夠在部署過程中通過與環境的交互實時采集樣本,利用強化學習算法在端側自主更新權重,從而顯著提升VLA模型在未知環境中的適應能力,實現真正意義上的“邊用邊學” 。

    5.1.1  LPU(大腦芯片)

    LPU(Language Processing Unit)芯片作為系統的“大腦”,主要承擔繁重得多模態大模型(VLM)推理任務,負責理解用戶的自然語言指令(如制作咖啡等)與解析采集的環境信息(如RGB攝像頭、深度傳感器等)。當前端側大模型推理芯片主要面臨四大核心挑戰:

    存儲墻問題[18] :數據搬運耗時占比超過70%,嚴重制約推理速度。傳統架構因內存調度效率低,帶寬利用率常低于40%,導致“算力虛高”現象。

    帶寬瓶頸[19] :傳統架構帶寬利用率不足40%,硬件算力資源利用率低。如瑞芯微RK1820內存帶寬利用率不足20%,無法充分發揮硬件性能。

    功耗約束:多數端側芯片功耗>5W,難以適配便攜設備。高功耗導致熱密度超標,影響設備穩定性,制約端側AI在移動設備上的應用。

    模型部署復雜度:現有架構普遍存在算力利用率低、芯片面積大、價格昂貴等問題,難以形成規模化商業化落地。

    圖片4.png

    圖4 端側大模型芯片對比

    國際國內主流技術方案各存局限,如圖4所示,邁特芯科技提出的LPU芯片優勢如下:

    (1)架構創新:近存計算突破“存儲墻”端側大模型推理的核心瓶頸在于內存帶寬而非計算峰值。本方案中的LPU芯片采用了近存計算(Near-Memory Computing)架構,如圖5所示,通過國產先進封裝工藝,將邏輯計算芯粒與高帶寬內存芯粒進行3D堆疊。這種設計極大地縮短了物理互聯距離,將內存帶寬利用率提升至80%以上,顯著降低了訪問外部存儲器的延遲和功耗,從而在極低能耗下實現了高吞吐量的Token生成。

    (2)領域專用架構(DSA)與多精度融合:針對VLM模型中存在的大量矩陣運算與非結構化稀疏計算,LPU采用了動態切換運算精度的處理單元。它支持INT4、FP16等多種混合精度計算,能夠根據模型層的敏感度自動適配精度,在保證推理準確率的前提下最大化算力效率。此外,針對多算子間數據流斷裂的問題, LPU在硬件層面實現了算子融合與流水線級聯,進一步降低了端側推理延遲(目標≤150ms),確保了“感知-理解”環節的實時性 。該架構經過多次迭代,并已在FPGA[20]和測試芯片[21]完成驗證,能效國際領先。

    圖片5.png

    圖5 邁特芯端側大模型芯片(LPU-大腦)架構

    (3)極致能效比:通過上述架構創新, LPU芯片成功在嚴格的功耗約束下(整體模組功耗≤5W) 提供了超過10 TOPS的有效算力,能夠流暢運行3B~10B參數量的國產開源大模型(如DeepSeek、Qwen等),為具身智能體提供了強大的語義認知底座。

    5.1.2  DiT-RL Chip(小腦芯片)

    DiT-RL芯片是本方案的核心創新點,被定義為具身智能系統的“小腦”。它不僅負責高頻、精準的動作生成,更承擔著端側自主訓練(On-Device Training)的關鍵任務。與僅負責推理的LPU不同, DiT-RL芯片在微架構設計上專門針對“訓練與推理的差異性”進行了深度優化。

    然而,現有片上學習工作雖在能效上取得突破,但架構難以適配生成式模型。 Qian等人提出的“推理兼容反向傳播”加速器[22] ,雖在CNN訓練上實現了高能效,但其硬件深度綁定卷積算子,無法高效支持DiT部署與動態計算;Lee等人開發的低功耗DRL芯片[23]利用稀疏訓練顯著降低了內存帶寬,但主要針對輕量級MLP策略網絡。鑒于現有架構均未針對DiT核心的迭代去噪與流匹配特性進行優化,缺乏對大規模生成式模型的算力支持,必須重新設計架構以滿足“小腦”在端側同時進行高頻動作生成與復雜策略微調的需求。

    為此,本芯片內部設計了三種可動態配置的數據流以支撐上述需求:一是推理通路(前向傳播和獎勵生成),包含專門優化的擴散模型、流匹配和獎勵模型加速單元,負責將LPU傳來的狀態特征映射為連續平滑的機械臂動作及環境獎勵;二是強化學習通路(損失生成),專門針對Cal-Q等算法進行硬件加速;三是權重更新通路(反向梯度更新),利用前向傳播數據結合模型損失進行實時梯度更新。這三種數據流在芯片中交替計算,配合大腦芯片推理,實現了真正的“邊推理,邊訓練”。

    通過這種“感知理解”與“動作反饋”分離的雙芯片架構,系統實現了極致的效能優化。在同一片上閉環完成動作生成與權重調整,最大程度降低了片間帶寬壓力及延遲。在實際應用中,當機器人執行倒水、抓取等任務遇到失敗(如水灑出)時,芯片能立即捕捉負反饋,并在下一次嘗試中通過內部的“基于Q函數引導的梯度優化策略”調整生成策略。這種機制不僅限制了機器人的危險探索行為,更大幅提高了樣本效率,使其能在48小時內快速適應新場景。

    5.2   具身AIOS方案

    在強大的異構芯片算力底座之上,邁特芯科技構建了專為具身智能設計的操作系統—AIOS。AIOS不僅僅是一個軟件平臺,它是一套融合了感知、決策、執行到持續進化的完整生態系統。該系統采用了模塊化與分層設計,實現了軟硬件的深度解耦與高效協同,可支撐多場景下的復雜任務落地。 AIOS的核心架構主要由以下三個維度構成:

    (1)核心閉環:仿生級的“感知-決策-進化”機制。如圖3所示, AIOS系統構建了類生物神經系統的“感知-決策-執行-進化”核心閉環。系統首先通過視覺、力覺及自然語言接口接收多模態環境信息,傳輸至“大腦”層(VLM語義環境理解),由大模型進行高層認知決策與任務拆解;解析后的信號下發至“小腦”層(DiT+RL運動生成),基于擴散變模型生成精準的關節控制指令。此外, AIOS內置了持續學習與適應體系,能夠根據環境反饋的獎勵信號在端側實時計算損失并更新“小腦”權重,實現了從Sim2Real仿真到真機進化閉環,確保智能體具備在非結構化環境中自主進化的能力。

    (2)架構支撐:全棧子系統與算法生態。為支撐這一核心閉環的高效運轉, AIOS在架構中間層集成了全棧功能子系統與核心算法工具鏈。系統向下通過子系統模塊深度整合了3D視覺感知(含Lidar/IMU)、 SLAM導航、語音情感交互及底層運動控制驅動,向上則提供了從邏輯演示數據采集、VLA模型量化部署到真機強化學習仿真的完整軟件生態。這種模塊化設計不僅實現了軟硬件的深度解耦,還通過標準化的VLA量化與部署接口,有效解決了大模型在異構端側芯片上運行的算力瓶頸,大幅降低了具身智能應用的二次開發成本與適配門檻。

    (3)場景落地:跨形態與多任務泛化。得益于其強大的通用性與泛化能力, AIOS已成功打通了從工業制造、家庭服務到特種作業的全場景應用鏈路。如圖3左側所示,該系統不僅能適配工業人形機器人、家用人形機器人及專用四足機器人等多種形態載體,更已在疊被子、取藥、倒水、分揀物流及閱讀報刊等復雜精細任務中通過了驗證。 AIOS以其“一套系統、多態兼容”的特性,打破了單一任務模型的局限,為具身智能從專用場景向全能型通用機器人的跨越提供了標準化的操作系統級解決方案。

    5.3   多智能體AIOS方案

    本方案摒棄傳統的協同范式,依托自主可控的高性能端側AI芯片,構建了一種“端側分層式多智能體AIOS協同系統”。該系統將大模型的通用認知能力下沉至邊緣執行端,通過“軟硬協同”的異構架構設計,實現了多智能體從“預設指令執行”到“自主語義理解與協作”的跨越。系統架構遵循“感知-認知-執行-反饋”的閉環設計,包含以下核心功能模塊:

    (1)多模態語義感知與投影

    系統通過全局視覺輸入感知環境狀態,并接收用戶的自然語言指令。利用視覺-語言投影器,系統將高維的非結構化視覺數據映射到統一的語義特征空間。這一過程充分利用了端側AI芯片的立方脈動陣列架構,實現了多模態數據的高吞吐、低延遲編碼,為后續的決策規劃提供標準化的語義輸入。

    (2)高層決策中樞作為系統的“大腦”:該層級負責復雜任務的邏輯拆解與資源調度,具備長時記憶的特征,包含規劃器、任務分配器、監督器等關鍵組件。

    (3)多VLA驅動的底層執行集群:這是本系統的核心創新點,系統摒棄了傳統的控制律方法,采用一組VLA大模型作為獨立的執行智能體,具備了強泛化能力和并行推理能力。

    (4)魯棒運動控制與物理執行接口:為了彌合VLA生成的高層語義動作與機器人底層電機控制之間的鴻溝,系統構建了確定性的運動學解算與全身控制層。利用端側芯片的低功耗計算單元,該控制層獨立于VLA運行,專注于處理地形適應、本體平衡與防碰撞檢測。這種“大模型決策+經典控制執行”的異構架構, 既保留了VLA的強泛化性,又通過經典控制算法保證了物理執行的安全性與穩定性,無需額外的訓練成本即可實現可靠操控。

    圖片6.png

    圖6 多智能體協同

    系統在運行過程中,自動記錄“VLA決策-執行結果”的數據對,構建端側自訓練數據集。基于端側異構芯片系統 ,這些真實物理數據將用于后續對VLA模型的參數微調,實現智能體從“工具輔助”向“自主決策”的持續進化 ,最終達成“芯-模-端-智”的一體化協同。

    6  結語

    當前,人工智能技術正經歷從“云端離身智能”向“端側具身智能”躍遷的歷史性時刻。這不僅是計算范式的演進,更是國家實施“人工智能+”行動、推動智能終端普及的關鍵落腳點。本文立足于對VLA、VLN及多智能體協同等前沿方向的深度剖析,針對具身智能落地過程中面臨的“成本-算力-能耗”三角悖論,提出了一種基于國產自主創新端側大模型芯片的系統級破局之道。

    本方案由邁特芯科技與南方科技大學聯合團隊共同提出,實現了具身計算范式的重構。本方案并非局限于單一技術點的突破, 而是實現了從底層國產LPU/ RL芯片、自研實機RL算法,到頂層AIOS操作系統的全棧式創新。在硬件上,我們摒棄了傳統的通用算力堆砌模式,首創“主控(SoC)+大腦(LPU)+小腦(DiT-RL)”的異構仿生芯片架構,通過近存計算與異構協同,突破了傳統架構在邊緣端部署中遇到的“存儲墻”“帶寬墻”及能效瓶頸。這一架構實現了高層語義理解與底層精準控制、環境反饋的物理解耦與高效協同,賦予了智能體在物理世界中“邊用邊學”、在線持續進化的能力。同時,在軟件生態構建上,依托自研的AIOS操作系統,我們成功打造了一套“軟硬解耦”的智能底座。該系統向下通過硬件抽象層深度適配多品牌傳感器與執行器,向上提供標準化的算法接口以兼容各類VLA模型與強化學習策略。這種高度的模塊化設計,極大地降低了復雜機器人系統的集成門檻與開發成本,使我們能夠高效地將實驗室中的算法成果轉化為生產力,成功打通了從虛擬仿真訓練到復雜真機場景部署的“最后一公里”。

    依托從底層國產芯片工藝、3D堆疊封裝到上層算法的全棧自研體系,本方案構建了具備高度獨立性與可控性的技術護城河。隨著該方案在標準化與商業化層面的推進,其不僅能有效解決具身智能的泛化難題,更將加速萬物智聯的工業5.0新生態演進,為下一代智能終端產業的爆發奠定堅實的算力基石。AP

    作者簡介:

    謝齊家(2003-) ,男 ,河北滄州人 ,碩士 ,現就讀于南方科技大學 ,研究方向為AI加速芯片設計。

    李逸翔(2002-) ,男 ,四川宜賓人 ,碩士 ,現就讀于南方科技大學 ,主要研究方向為具身智能、強化學習。

    彭冠旗(2003-) ,男 ,廣東湛江人 ,博士 ,現就讀于南方科技大學 ,研究方向為具身智能算法。

    湯易博(2003-) ,男 ,湖北武漢人 ,現就讀于南方科技大學 ,主要研究方向為具身智能、AI加速芯片設計。

    陳文俊(2004-) ,男 ,湖北黃岡人 ,現就讀于南方科技大學 ,研究方向為具身智能體應用。

    阮理揚(2005-) ,男 ,廣東深圳人 ,現就讀于南方科技大學 ,研究方向為邊緣計算、具身智能。

    覃冠臻(2005-) ,男 ,湖南湘潭人 ,現就讀于南方科技大學 ,研究方向為大模型、具身智能。

    陳啟致(2005-) ,男 ,廣東潮州人 ,現就讀于南方科技大學 ,研究方向為具身智能 。

    吳土孫(1977-) ,男 ,廣東茂名人 , 中級職稱 ,碩士 ,現就職于深圳市邁特芯科技有限公司 ,研究方向為人工智能與機器人。

    曹   敏(1988-),男,安徽宣城人,碩士,現就職于深圳市邁特芯科技有限公司,研究方向為具身智能應用方案。

    劉   嘉(1980-),男,北京人,博士,現就讀于南方科技大學,研究方向為端側大模型、國產LPU芯片、全模態數據實時治理和分布式多智能體技術。

    余   浩(1976-)男,博士,現就任南方科技大學深港微電子學院副院長、長聘教授,深圳市邁特芯科技有限公司創始人,長期從事高性能集成電路芯片設計。

    參考文獻:

    [1] 國務院. 關于深入實施 “人工智能+”行動的意見(國發〔2025〕11號)[Z]. 2025.

    [2] Market.us. Embodied AI Market Report [EB/OL]. https://market.us/report/embodied-ai-market/.

    [3] MarketsandMarkets. Embodied AI Market Size, Share, Trends and Growth [EB/OL]. https://www.marketsandmarkets. com/Market-Reports/embodied-ai-market-83867232.html.

    [4] D. Jadhav. Physical AI Market Size, Share, Growth, Report 2025 to 2034 [EB/OL]. https://www.cervicornconsulting. com/physical-ai-market.

    [5] K. Black, et al. π0: A Vision-Language-Action Flow Model for General Robot Control [J/OL]. arXiv, 2026.

    [6] P. Intelligence, et al. π*0.6: A VLA That Learns From Experience [J/OL]. arXiv, 2025.

    [7] A. Zhai, et al. Igniting VLMs toward the Embodied Space [J/OL]. arXiv, 2025.

    [8] W. Wu, et al. A Pragmatic VLA Foundation Model [J/OL]. arXiv, 2026.

    [9] E. Collaboration, et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models [J/OL]. arXiv, 2025.

    [10] M. Yoo, J. Jang, S. Yoon, and H. Woo. World Model Implanting for Test-time Adaptation of Embodied Agents [J/OL]. arXiv, 2025.

    [11] M. Nakamoto, et al. Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning [J/OL]. arXiv, 2024.

    [12] Z. Xiong, K. Li, Z. Wang, M. Jackson, J. Foerster, and S. Whiteson. HyperVLA: Efficient Inference in Vision- Language-Action Models via Hypernetworks [J/OL]. arXiv, 2025.

    [13] Research and Markets. Warehouse Automation Market Report [EB/OL]. https://www.researchandmarkets.com/ report/warehouse-automation.

    [14] T. Huang, et al. MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots [J/OL]. arXiv, 2025.

    [15] N. Hirose, et al. OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [J/OL]. arXiv, 2025.

    [16] R. Lowe, Y. Wu, A. Tamar, J. Harb, P. Abbeel, and I. Mordatch. Multi-agent actor-critic for mixed cooperative- competitive environments [C]. Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017 : 6382 - 6393.

    [17] T. R. Gadekallu, et al. XAI for Industry 5.0—Concepts, Opportunities, Challenges, and Future Directions [J]. IEEE Open Journal of the Communications Society, 2025, 6 : 2706 - 2729.

    [18] M. Horowitz. 1.1 Computing's energy problem (and what we can do about it) [C]. 2014 IEEE International Solid- State Circuits Conference Digest of Technical Papers (ISSCC). 2014 : 10 - 14.

    [19] A. Gholami, Z. Yao, S. Kim, C. Hooper, M. W. Mahoney, and K. Keutzer. AI and Memory Wall [J]. IEEE Micro, 2024, 44 (3) : 33 - 39.

    [20] M. Huang, et al. EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models [J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2025, 72 (7) : 3352 - 3365.

    [21] K. Li, M. Huang, A. Li, S. Yang, Q. Cheng, and H. Yu. A 29.12-TOPS/W Vector Systolic Accelerator With NAS- Optimized DNNs in 28-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2025, 60 (10) : 3790 - 3801.

    [22] J. Qian, H. Ge, Y. Lu, and W. Shan. A 4.69-TOPS/W Training, 2.34-μJ/Image Inference On-Chip Training Accelerator With Inference-Compatible Backpropagation and Design Space Exploration in 28-nm CMOS [J]. IEEE Journal of Solid- State Circuits, 2025, 60 (1) : 298 - 307.

    [23] J. Lee, W. Jo, S.-W. Park, and H.-J. Yoo. Low-power Autonomous Adaptation System with Deep Reinforcement Learning [C]. 2022 IEEE 4th International Conference on Artificial Intelligence Circuits and Systems (AICAS). 2022: 300-303.

    摘自《自動化博覽》2026年第一期暨《2026具身智能專刊》

    熱點新聞

    推薦產品

    x
    • 在線反饋
    1.我有以下需求:



    2.詳細的需求:
    姓名:
    單位:
    電話:
    郵件:
  • <menu id="qseaa"><tt id="qseaa"></tt></menu><nav id="qseaa"><tt id="qseaa"></tt></nav>
    <optgroup id="qseaa"><tt id="qseaa"></tt></optgroup>
  • <object id="qseaa"><acronym id="qseaa"></acronym></object><input id="qseaa"></input>
    <menu id="qseaa"></menu>
  • <nav id="qseaa"><u id="qseaa"></u></nav>
  • <object id="qseaa"></object>
  • <input id="qseaa"></input><menu id="qseaa"></menu>
  • <s id="qseaa"></s>
  • <menu id="qseaa"><u id="qseaa"></u></menu>
  • <input id="qseaa"></input>
    啊灬啊灬啊灬快灬深用力试看