考慮未來交互的端到端自動駕駛決策方法-資訊-控制網

考慮未來交互的端到端自動駕駛決策方法

點擊數：2393 發布時間：2026-05-10 12:33:38
分享到：

針對城市道路場景下端到端自動駕駛決策中前瞻性不足、復雜交互環境下安全性與通行效率難以兼顧等問題，本文提出了一種考慮未來交互的端到端強化學習決策方法：首先，將城市道路駕駛任務建模為馬爾可夫決策過程，并采用軟演員-評論家算法構建連續控制決策框架；其次，將鳥瞰語義分割圖、自車運動學信息、參考路徑點以及周圍車輛未來預測軌跡共同作為狀態輸入，提升模型對動態交通環境的時序理解能力；進一步地，在獎勵函數中引入基于預測結果的安全獎勵，引導智能體提前感知潛在風險并實施主動避碰，并針對多源異構輸入，設計多輸入特征提取與融合網絡，實現圖像信息與向量信息的聯合表征；最后，基于CARLA仿真平臺開展對比實驗與消融實驗。結果表明，本文所提軌跡預測引導軟演員-評論家模型在成功率、碰撞率、平均獎勵和平均速度等指標上均優于對比模型，能夠在復雜城市交通場景中實現更安全、更穩定且更高效的自動駕駛決策。

關鍵詞：端到端自動駕駛；強化學習；城市交通場景；軟演員-評論家算法

1 引言

隨著傳感器技術、人工智能與智能控制的快速發展，自動駕駛已成為多學科交叉融合的研究熱點[1]。在復雜城市交通場景中，自動駕駛車輛不僅需要準確感知周圍環境，還需要在多主體強交互、交通規則約束以及動態不確定性并存的條件下，實現安全、平穩且高效的自主決策[2]。自動駕駛系統設計分為兩類，一類是傳統的模塊化設計，一類則是最近興起的端到端設計[3]。端到端自動駕駛方法通過構建從環境觀測到控制輸出的統一映射模型，能夠在整體目標驅動下實現感知與決策控制的協同優化，因此已成為自動駕駛研究的重要發展方向[4]。

傳統的研究在很大程度上遵循模塊化的管道體系結構，其中感知、預測、計劃和控制被分離到不同的子系統 [4]。但是由于各模塊之間的優化目標不同，檢測追求的是平均精度，而規劃的目標是駕駛安全性和舒適性，因此整個系統可能不會與統一的目標保持一致，即最終的控制任務。隨著順序過程的進行，每個模塊的錯誤可能會加劇并導致信息丟失[5]。因此，端到端方法得到了越來越多的應用，端到端自動駕駛系統定義為完全可微分的程序，將原始傳感器數據作為輸入，并產生低級控制動作作為輸出，其主要使用的方法仍然是基于數據驅動的模仿學習或者強化學習[6]。

趙祥模等提出了基于時空卷積的端到端自動駕駛行為決策模型，將RGB圖像、深度圖像和車輛歷史運動狀態序列作為多模態輸入，并結合時空卷積結構提升端到端駕駛行為決策精度[7]。郭應時等提出了基于注意力機制的多模態自動駕駛行為決策模型，針對端到端自動駕駛中不同區域重要性和不同語義類別關系建模不足的問題，引入注意力機制以增強關鍵場景信息表征能力[8]。呂宜生等提出了融合時空特征的端到端自動駕駛車輛轉向角預測模型Two-Stream C-GRU，通過融合RGB圖像、光流圖像與門控循環單元信息，實現了面向連續控制輸出的端到端轉向角預測[9]。

然而，現有端到端自動駕駛方法在城市道路場景中的應用仍面臨若干挑戰[10]。單純依賴當前時刻觀測信息的決策模型，往往難以充分刻畫周圍交通參與者未來行為的演化趨勢，導致模型在交叉口、匯入匯出及高密度混行場景下缺乏足夠的前瞻性，難以及時識別潛在沖突并進行主動規避[11]。基于上述分析，本文基于軌跡預測，將未來信息引入強化學習的狀態表示與獎勵函數設計中，以提升模型對周圍交通參與者未來運動趨勢的感知能力和風險判斷能力，并依托CARLA仿真平臺開展對比實驗與消融實驗，對所提方法的有效性、魯棒性和安全性進行驗證。

2 理論基礎

2.1 問題描述

本文將自動駕駛任務形式化為馬爾可夫決策過程[12] ，記為M = (ss,CA,p, r, n)。在離散時間步t，智能體（自車）從環境感知得到狀態表征st s，并依據策略(atst)選擇動作at e CA。環境在執行動作后發生狀態轉移st+ P( · st, at)，并返回即時獎勵rt = r(st, at)。模型的優化目標是求解最優策略，使得期望累積折扣回報最大化，如式（1）所示：

2.2 控制算法

本文選擇在連續控制場景表現較為優秀的深度強化學習算法軟演員-評論家（Soft Actor-Critic， SAC）作為核心。 SAC是一種面向連續動作控制任務的離策略深度強化學習方法，其核心思想是在累計回報最大化的基礎上引入策略熵項，使智能體在學習高收益策略的同時保持適度探索能力[13]。基于最大熵強化學習思想， SAC的優化目標可表示為式（2）：

式2.png

式中， y為折扣因子， r(st , at)為時刻t的即時獎勵，為熵權重系數， H(n ( · Ist))表示狀態st下策略的熵。該目標表明， SAC不僅鼓勵智能體選擇具有較高回報的動作，而且鼓勵其保留一定的動作隨機性，以增強對復雜環境的探索能力。

在網絡結構上， SAC通常采用雙評論家網絡與單演員網絡的結構。其中，評論家網絡用于估計狀態-動作值函數，演員網絡用于輸出隨機策略。為減弱值函數估計中的高估偏差， SAC在目標值計算時采用兩個評論家網絡輸出的較小值，其目標值可表示為式（3）：

式3.png (3)

其中，Qi表示目標評論家網絡， s '和a '分別表示下一時刻狀態與動作。在此基礎上，評論家網絡通過最小化當前估計值與目標值之間的誤差進行更新，其損失函數為式（4）：

式4.png （4）

其中，表示經驗回放池。與此同時，演員網絡依據當前評論家網絡對動作價值的評估結果進行更新，其目標是在提高動作價值的同時保持適度探索性，對應優化目標為式（5）：

式5.png

由式（5）可知，演員網絡更新的本質是在價值提升與策略熵之間進行權衡，使策略在連續動作空間中能夠兼顧收益性與探索性。

2.3 控制系統建模

在自動駕駛控制系統的研究中，車輛與環境交互的真實性取決于底層物理模型的保真度，而控制算法的有效性則依賴于狀態空間的合理抽象與控制信號的精確映射[14]。本系統在底層仿真與上層控制之間建立了嚴密的動力學層級架構，具體如圖1所示。

車輛控制信號的計算是在車體坐標系下進行的。此外，為真實還原車輛的物理表現，底層仿真環境采用高保真度的物理引擎對每輛車執行全量剛體動力學仿真。其核心控制方程基于三維空間下的Newton-Euler方程組，如式（6）所示：

式6.png

式中， m為車輛質量， p為質心位置， I為轉動慣量張量，w· 為角速度。在受力分析中， Ftire代表基于魔術公式等復雜輪胎模型計算出的側向力，而其他三項則分別代表驅動力、制動力、空氣阻力以及相應的力矩。

圖片1.png

圖1 車輛動力學架構與控制信號轉換

在每個仿真步長內，物理引擎會自動對上述方程組進行積分，輸出車輛真實的瞬時速度vt、角速度wt以及更新后的空間位姿(pt , Rt)。在本研究中，系統不對上述復雜的物理過程進行任何人為簡化或替代，而是將其視為一個整體的動力學系統，強化學習策略網絡僅通過標準化的接口與該系統進行交互，從而最大限度保證了訓練環境的物理真實性。

從上層策略控制的視角來看，復雜的剛體車輛被抽象為一個受控的離散時間動力學系統，如式（7）所示：

式7.png

其中，狀態向量t = [px , py . V , V T分別表示世界坐標系下的位置、航向角與速度；連續控制輸入向量為ult = [6t,Tit]T。為使策略網絡的歸一化輸出適配底層物理接口，系統對控制信號進行了以下映射與處理：

橫向控制與平滑:歸一化方向盤轉角6t e [ - 1 , 1]會結合車輛設定的最大物理轉角6max，線性縮放為前輪的實際轉角wheel。為抑制策略網絡輸出的高頻抖動，避免執行機構產生突變，系統對轉向信號引入了一階低通濾波（指數移動平均），如式（8）所示：

式8.png

式中,tra"為原始輸出指令，ae[0 , 1]為平滑系數。越大則信號越平滑，但響應延遲也隨之增加。縱向控制分支映射：綜合加減速指令Tt E [ - 1 , 1]通過分支映射轉化為獨立的驅動與制動信號。當Tt ≥ 0時，直接映射為油門開度；當Tt < 0時，切斷動力，并將其絕對值映射為剎車力度。此外，接口還保留了手剎與倒擋等離散布爾型信號，以支持車輛的完整機動能力。

為保證訓練數據的時序一致性，避免異步渲染導致觀測與動作時序錯位，整個系統運行在固定時間步長的同步模式下。系統嚴格控制調用順序，確保控制指令下發后立即進一步剛體物理積分，從而保證指令在當前物理步內即時生效。盡管底層執行了全量動力學仿真，但在上層的路徑點追蹤與獎勵計算模塊中，為了提升運算效率并簡化幾何約束，系統采用自行車運動學模型（Bicycle Kinematic Model） [15]對車輛狀態進行近似表達（如圖1所示），公式如式（9）～（12）所示：

式1.png

式中，為車輛軸距。在實際的狀態信息解算層面，系統進行了針對性的優化以彌合運動學近似與實際動力學之間的差異。車輛的標量速度v_t直接由底層三維速度向量的模長計算得出，如式（13）所示：

式2.png

3 具體模型

強化學習作為一種數據驅動的序貫決策方法，能夠通過與仿真環境的持續交互學習由場景狀態到駕駛動作的端到端映射關系，并在一定程度上隱式反映對未來收益的評估。然而，在強交互場景下，僅依賴策略網絡對未來信息進行表征往往存在不穩定性，且會進一步增加策略訓練難度。基于此，本節在強化學習框架中引入周圍車輛未來軌跡預測信息，使智能體不僅能夠感知當前場景中的車輛狀態，還能夠理解其短時運動趨勢，從而實現更具預見性的主動決策。具體模型設計如圖2所示。

圖片2.png

圖2 模型設計與訓練流程

模型動作空間設計沿用上節設定，以油門和方向盤作為底層控制量，平滑系數取0.75。整體架構主要包括感知與狀態編碼以及策略與價值網絡兩部分：首先，在感知與狀態編碼階段，將仿真器提供的多源原始信息，包括鳥瞰語義分割圖、車輛運動學狀態和路網規劃路點等，與軌跡預測模塊輸出的周圍車輛未來軌跡進行統一編碼，形成結構化狀態向量，作為策略網絡輸入；隨后，在策略與價值網絡中， SAC的網均采用多輸入特征提取結構，其中對鳥瞰語義分割圖等圖像類觀測利用卷積神經網絡提取空間特征，對車輛狀態、路點坐標及預測軌跡特征等向量類觀測通過多層感知機進行編碼，最終將各類子特征在特征維度上拼接后輸入共享的兩層全連接網絡，以完成策略生成與價值評估。

3.1 多輸入特征提取網絡

由于狀態空間包含異構模態的信息，即圖像型（鳥瞰語義分割圖）和向量型（車輛運動學量、路點坐標、預測軌跡特征等），本文設計了一個自定義多輸入特征提取器以適配SAC模型的接口。

圖片3.png

圖3 圖像特征提取網絡

對于鳥瞰語義分割圖（192×192×6通道），使用一個6層卷積神經網絡進行空間特征提取，其結構如圖3所示，最終將空間特征壓縮為256維向量。對于其余向量型觀測（車輛測量值、路點序列等），直接展平后保留原始維度。所有子特征在特征維度拼接后，其總維度作為后續網絡的輸入維度。

3.2 狀態空間設計

本文的核心創新之一是訓練一個軌跡預測模塊，并將其輸出作為狀態空間的顯式擴展，使算法從被動感知升級為預見性感知。具體而言，軌跡預測模型選用單層門控神經網絡（Gated Recurrent Unit， GRU）。此外，算法的狀態空間為一個多鍵字典結構stim , st m , st”p, stpred}，各分量的定義

如下：

（1）鳥瞰語義分割圖stimg e R192x192 6

以自車為中心的鳥瞰視角（Bird's-Eye View， BEV）語義分割圖像，分辨率為192×192，包含6個語義通道。不同通道分別編碼道路區域、車道標線、交通參與者、可行駛區域等空間語義信息。BEV表示相較于透視圖像具有天然的尺度不變性，能夠為策略網絡提供結構化的空間布局先驗。

（2）車輛運動學測量向量svm

R4編碼自車當前時刻的運動學狀態，包含四個分量，如式（14）所示：

式14.png

其中steert E [ - 1 , 1]為當前方向盤轉角，throttle t e [o , 1]為油門開度， vt [0 , 120] km/h為當前車速， t”p e [ - T , n]為車頭朝向與下一個參考路點方向之間的夾角。

（3）參考路點序列s”p e R15x2

從全局路徑規劃模塊提取的未來15個參考路點在自車坐標系下的相對坐標 (xriel , yriel)，i = 1 , 2 , … , 15。坐標轉換過程參考2 .2 .3 所述，將全局坐標系下的路點位置變換至車體局部坐標系。該序列描述了自車應當遵循的近期行駛路徑，是路徑跟蹤行為的核心引導信號。

當剩余全局路點不足15個時，采用末端方向外推策略進行填充：以最后兩個已知路點的方向向量為參考，等間距地向前延伸直至補齊15個路點，確保狀態維度恒定。

（4）預測軌跡特征stpred—基于軌跡預測的狀態擴展

這是本文相較于傳統方法的關鍵擴展。利用軌跡預測模塊，以交通參與者的歷史軌跡為輸入，對檢測范圍（15m）內最多5個最近的周車分別輸出其未來Tpred步的預測位置序列。本文將這些預測信息以兩種互補的方式融入狀態空間：

具體而言，將每輛周車的預測軌跡點poi bs = (Ri ,rJi r) （ i為障礙物索引，t = 1 , Tpred為預測時域）變換至自車坐標系后，按照與自車參考路點相同的編碼方式進行表示，并與自車的路點序列在通道維度拼接。這一設計使得策略網絡能夠在統一的空間參考系下同時感知到自己應該去的地方和周車即將去的地方，從而建立起路徑層面的沖突預判能力。

綜上，本文的狀態空間設計不僅使模型能通過BEV來感知周圍智能體的狀態，還通過將軌跡預測信息顯式編碼為算法的可觀測量，突破了傳統方法僅依賴當前幀信息的局限性。這一設計使RL策略獲得了時間維度上的預見性，能夠在危險尚未實際發生時便提前規劃安全的駕駛行為。

3.3 獎勵函數設計

獎勵函數是強化學習的核心塑形信號，決定了算法的行為偏好和學習方向。本文的獎勵函數設計遵循三個原則：（1）各分量在每步均產生有效梯度信號，避免稀疏獎勵導致的學習困難；（2）逐步獎勵與終止獎勵在數量級上可比，防止算法過度追求短期利益或過度規避終止懲罰；（3）使用平滑連續函數替代階躍式懲罰，便于Critic網絡擬合。

（1）速度跟蹤獎勵r speed。采用高斯型速度獎勵函數，峰值位于目標巡航速度vtarget處，如式（15）所示：

式15.png

其中vt為當前車速（m / s ）， vtarget =25/3 . 6 x 6 . 94m/s， Ov = 3 . 0 m/s為容忍寬度參數。相較于分段線性函數，高斯型獎勵在目標速度附近提供了更平滑的梯度，有助于精細的速度調節。當車速偏離目標越遠，r speed越接近0。

（2）車道居中獎勵r center。鼓勵自車保持在車道中心行駛，如式（16）所示：

式16.png

其中d center為自車到車道中心線的橫向偏移距離，dmax = 2 . 0 m為允許的最大偏移。當自車完全居中時r center = 1，偏移達到上限時r center = 0。

（3）轉向平滑懲罰r steer。以二次型懲罰抑制大幅轉向，引導平順駕駛，如式（17）所示：

式17.png

其中6t e [ - 1 , 1]為當前方向盤轉角。

（4）速度門控機制。為防止Agent通過停在原地來回避碰撞風險（“消極安全”策略），引入速度門控因子，如式（18）所示：

式18.png

當車速低于1m/s時門控因子線性衰減至0，使所有正向獎勵失效；配合獎勵基線b=1.0的減除，停車狀態實際獲得負獎勵，迫使智能體保持合理速度。

在上述基礎獎勵之上，本文的核心改進在于利用軌跡預測結果構建前瞻性的安全獎勵信號。本文提出的預測安全獎勵rpred safety則在碰撞尚未發生時就向智能體傳遞風險信號，相當于讓智能體在碰撞還沒發生時就收到負面提示。具體而言，利用軌跡預測模塊輸出的各周車未來Tpred步位置序列，計算自車與每輛周車在每個預測時刻的最小距離，如式（19）所示：

式19.png

其中N為檢測范圍內的周車數量， pego (T)和p i bs (r)分別為自車和第i輛周車在預測時刻的位置，dsafe為安全距離閾值， a為懲罰系數。該指示函數在任何一個預測時刻的距離低于安全閾值時即激活懲罰，使智能體提前感知到潛在的碰撞事件。除逐步獎勵外，在碰撞或出現時提前終止并施加終止懲罰，具體的量為-10。而當智能體成功完成完整路線時，獲得成功獎勵r success = + 10。

4 實驗結果

4.1 對比模型

為全面評估所提方法，本文將改進后的軟演員-評論家算法命名為軌跡預測引導軟演員-評論家（Trajectory-Prediction-guided Soft Actor- Critic， TP-SAC），并將其與若干基線模型進行對比。同時，為進一步分析各組成模塊的作用，本文還設置了相應的消融實驗，具體對比模型如下：

近端策略優化（Proximal Policy Optimization， P PO）：經典策略優化方法，用作通用端到端駕駛基線模型；深度確定性策略梯度（Deep Deterministic Policy Gradient， DDPG）：面向連續動作空間的經典演員-評論家方法；SAC-1：在基礎軟演員-評論家（Soft Actor-Critic， SAC）框架下去除狀態空間中的預測軌跡特征，用于驗證預測增強狀態表征的作用；SAC-2：保留預測增強狀態空間，但去除基于預測結果構建的安全獎勵項，用于分析前瞻性獎勵塑形的貢獻；SAC-3：同時去除預測軌跡特征與預測安全獎勵項，可視為接近原始SAC的對照模型，用于衡量軌跡預測引導機制帶來的總體性能增益。

為全面評估所提模型在城市交通場景中的決策性能，本文選取評價指標分別為成功率、碰撞率、平均獎勵和平均速度。其中，成功率用于衡量模型完成駕駛任務的能力；碰撞率用于表征模型在復雜交通交互中的安全性；平均獎勵用于綜合反映策略在獎勵函數約束下的整體表現；平均速度用于評價模型的通行效率。上述指標能夠從安全、效率等角度較為全面地刻畫不同模型的綜合性能。

4.2 訓練對比

本節選擇CARLA進行仿真，使用其內置的Town03地圖作為主要實驗場景 [16]。Town03是一個方格狀城市布局的中等規模地圖，包含多車道道路、十字路口、T型路口等多種典型城市道路結構，能夠為智能體提供充分多樣的交通場景。本節的訓練與評估均基于固定的路線任務。每條路線由一對起點-終點的出生點索引定義，訓練階段使用12條預定義的交叉口路線，以交替循環方式選取。 CARLA通過全局路徑規劃器基于A*算法自動生成從起點到終點的全局參考路徑，路徑分辨率為1m點（即每米生成一個參考路點），如圖4所示。

圖片4.png

圖4 Town03城鎮

為模擬真實城市交通環境，實驗中采用CARLA的Traffic Manager模塊生成背景交通流。參數設置方面，全局跟車距離設為2.5m，啟用混合物理模式，在自車周圍50m范圍內進行完整物理模擬，范圍外車輛采用簡化運動學模型，以兼顧仿真真實性與計算效率；同時，將所有交通信號燈統一設為常綠狀態，以消除信號控制對強化學習訓練的額外干擾，使實驗聚焦于車車交互決策。訓練階段默認設置40輛背景車，并在每個回合開始時重新隨機生成，以增強場景隨機性并避免模型對特定交通配置過擬合。訓練總步數設為500000步，在15FPS仿真幀率下約對應18.5h的仿真駕駛時間；訓練過程中每10000步保存一次模型，共保存100個檢查點，同時記錄獎勵、回合回報和損失等關鍵訓練信息。

圖片5.png

圖5 測試過程中的指標、軌跡和數據變化

從圖5可以看出，本文提出的TP-SAC模型在整個訓練過程中整體表現最優，在成功率、碰撞率、平均獎勵和平均速度四項指標上均優于對比模型，體現出較強的綜合決策能力與訓練穩定性。具體來看，TP-SAC在訓練早期即表現出更快的收斂速度和更高的成功率，說明其能夠以更高的樣本效率學習有效駕駛策略；同時，其碰撞率下降更快且最終保持在最低水平，表明引入軌跡預測信息后，模型能夠更準確地預判周圍車輛的運動趨勢，從而提前做出規避決策。在平均獎勵和平均速度方面， TP-SAC同樣保持領先，說明該模型并非通過保守低速策略換取安全性，而是在安全性、任務完成能力與通行效率之間實現了更優平衡。

與基線模型相比， PPO和DDPG的整體表現均遜于TP-SAC，其中PPO的任務完成能力和綜合收益較弱， DDPG則表現出更明顯的訓練波動，反映出其在復雜連續控制場景中的穩定性不足。消融實驗進一步驗證了軌跡預測信息的有效性：去除預測軌跡特征的SAC-1在成功率和平均獎勵上均有所下降，碰撞率上升；保留預測狀態但移除預測安全獎勵項的SAC-2，整體性能雖有所保持，但在安全性和綜合收益上仍落后于TP-SAC；同時去除預測狀態特征和預測安全獎勵的SAC-3表現最差。上述結果表明，軌跡預測信息能夠通過狀態表征增強與獎勵塑形協同作用，共同提升強化學習決策模型在城市交通場景中的安全性、效率性與穩定性。

4.3 模型測試

為系統地衡量各方法在駕駛安全性、任務完成能力和行駛質量等方面的表現，我們采用閉環測試范式進行評估，即由訓練好的算法在CARLA仿真環境中直接驅動自車完成給定路線任務，全程不進行任何人工干預，具體結果如圖6所示。

圖片6.png

圖6 測試過程中的指標，軌跡和數據變化

在安全性與任務完成方面，本節10回合評估中未發生碰撞，平均路線完成度為100%，表明所學策略能夠在復雜城市路網中穩定完成中等距離駕駛任務。從軌跡結果可以看出，各回合車輛行駛軌跡均與預規劃路線高度一致，自車能夠沿道路平滑通過彎道路段，未出現偏離路面或在路口迷失等異常行為。同時，各回合累積獎勵分布較為集中，說明模型在不同測試回合中具有較好的一致性與魯棒性，整體表現出較強的安全性和任務執行能力。

在行駛質量方面，模型同樣表現穩定。速度曲線表明，自車在短暫加速后能夠較快收斂至目標速度附近，并在后續行駛過程中保持相對平穩，體現出較好的速度跟蹤能力；車道中心偏差整體較小，說明模型具備較強的車道保持能力；航向誤差在大多數時刻均維持在較小范圍內，僅在彎道過渡階段出現短時波動，隨后能夠迅速收斂，反映出較好的路徑跟蹤性能。與此同時，由于動作輸出采用平滑處理，轉向與油門控制信號整體變化連續，無明顯高頻振蕩，說明策略在保證任務完成和安全性的同時，也具備較好的控制平順性。

5 結論

本文圍繞城市道路場景下的端到端自動駕駛決策問題展開研究。針對傳統方法在復雜動態環境中對周圍交通參與者未來行為刻畫不足、決策前瞻性較弱，以及安全性與通行效率難以兼顧的問題，本文提出了一種融合軌跡預測信息的端到端強化學習決策方法：首先，將城市道路駕駛任務建模為馬爾可夫決策過程，并采用適用于連續控制任務的SAC算法構建決策框架；其次，結合車輛動力學特性與控制映射關系，建立了由環境觀測到控制輸出的端到端決策流程。

在模型設計上，本文將鳥瞰語義分割圖、自車運動學信息、參考路徑點以及周圍車輛未來預測軌跡共同作為狀態輸入，以增強模型對交通環境的時序理解能力；同時，在獎勵函數中引入預測安全獎勵，提升智能體對潛在風險的提前感知與主動避碰能力。針對多源異構輸入，本文進一步設計了相應的特征提取與融合網絡，以提高復雜場景信息表征能力。仿真與消融實驗結果表明，所提方法能夠在復雜城市交通場景下實現更安全、更穩定且更高效的自動駕駛決策，驗證了將軌跡預測信息與安全約束機制引入端到端強化學習決策框架的有效性。

作者簡介：

王偉強（2000-），男，山西長治人，本科，現為北方工業大學道路交通工程專業碩士研究生，研究方向為自動駕駛車輛軌跡預測與決策。

劉小明（1974-），男，河北唐山人，教授，博士生導師，現任教于北方工業大學，研究方向為智能交通系統。

楊尚將（2001-），男，河南信陽人，本科，現為北方工業大學道路交通工程專業碩士研究生，研究方向為智能交通系統與智能網聯汽車。

楊玉齊（2001-），男，河南信陽人，本科，現為北方工業大學道路交通工程專業碩士研究生，研究方向為實時響應公交系統及模塊化公交。

參考文獻：

[1] 馮洋, 夏志龍, 郭安, 等. 自動駕駛軟件測試技術研究綜述[J]. 中國圖象圖形學報, 2021, 26 (01) : 13 - 27.

[2] 黃昭彥, 楊爍, 吳建華, 等. 基于信息融合的智能網聯汽車安全交互決策[J]. 自動化學報, 2025, 51 (09) : 1883 - 1898.

[3] 褚端峰, 王如康, 王競一, 等. 端到端自動駕駛的研究進展及挑戰[J]. 中國公路學報, 2024, 37 (10) : 209 - 232.

[4] 陳妍妍, 田大新, 林椿眄, 等. 端到端自動駕駛系統研究綜述[J]. 中國圖象圖形學報, 2024, 29 (11) : 3216 - 3237.

[5] 計潔, 牛潤新, 余彪, 等. 端到端自動駕駛: 從技術演進到未來挑戰[J]. 吉林大學學報(工學版), 2025 : 1 - 24.

[6] 孫劍, 黃?, 聶通, 等. 面向端到端自動駕駛的測試技術: 前沿與展望[J]. 中國公路學報, 2026 : 1 - 30.

[7] 趙祥模, 連心雨, 劉占文, 等. 基于MM-STConv的端到端自動駕駛行為決策模型[J]. 中國公路學報, 2020, 33 (03) : 170 - 183.

[8] 郭應時, 黃濤. 基于注意力機制的多模態自動駕駛行為決策模型[J]. 中國公路學報, 2022, 35 (09) : 141 - 156.

[9] 呂宜生, 劉雅慧, 陳圓圓, 等. 融合時空特征的端到端自動駕駛車輛轉向角預測[J]. 中國公路學報, 2022, 35 (03) : 263 - 272.

[10] Chen X, Xu B, Hu M, et al. Safe efficient policy optimization algorithm for unsignalized intersection navigation[J]. IEEE/CAA Journal of Automatica Sinica, 2024, 11 (9) : 2011 - 2026.

[11] 馬萬經, 俞春輝. 智能網聯混合交通流交叉口控制: 研究進展與前沿[J]. 中國公路學報, 2023, 36 (2) : 22 - 40.

[12] 胥杰馨, 柴俊霖, 董志明, 等. 基于深度強化學習的電動輪礦車制動能量控制研究[J]. 礦山機械, 2026, 54 (04) : 11 - 17.

[13] 張新紀, 趙佳君, 李濤. 基于改進SAC算法的氣象無人機路徑規劃[J]. 自動化應用, 2026, 67 (06) : 14 - 19.

[14] 賈志龍, 霍婷婷. 基于車輛運動學的路徑跟蹤算法研究[J]. 內燃機與配件, 2025 (23) : 35 - 39.

[15] ZHANG J J, YE B L, WANG X, et al. A trajectory planning and tracking method based on deep hierarchical reinforcement learning[J]. Journal of Intelligent and Connected Vehicles, 2025, 8 (2) : 9210056 - 1 - 9210056 - 9.

[16] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: an open urban driving simulator[C]. Proceedings of the 1st Annual Conference on Robot Learning. PMLR, 2017, 78 : 1 - 16.

摘自《自動化博覽》2026年4月刊

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

資訊頻道

熱點新聞

推薦產品