ChatGPT 框架帶給自動駕駛規(guī)劃任務(wù)的啟發(fā)

2023-03-30 19:52:51· 來源：賽目科技

軌跡規(guī)劃是自動駕駛算法中的一個重要任務(wù)，其目的是根據(jù)車輛當前的狀態(tài)和環(huán)境信息，確定車輛的行駛路線傳遞到控制模塊以實現(xiàn)自動駕駛。而這個問題是非常復(fù)雜的，其難點包括了以下幾個方面1. 引言01不確定性自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策，

軌跡規(guī)劃是自動駕駛算法中的一個重要任務(wù)，其目的是根據(jù)車輛當前的狀態(tài)和環(huán)境信息，確定車輛的行駛路線傳遞到控制模塊以實現(xiàn)自動駕駛。而這個問題是非常復(fù)雜的，其難點包括了以下幾個方面

1. 引言

01 不確定性

自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策，但這些環(huán)境是充滿不確定性的。例如，突然出現(xiàn)的障礙物、交通擁堵等情況都可能影響決策的正確性。而車輛駕駛事件具有“長尾效應(yīng)”和“小概率事件”特點，為算法帶來巨大挑戰(zhàn)。

02 多樣性

不同的駕駛場景、路況和駕駛習(xí)慣會導(dǎo)致決策的多樣性。例如，在遇到交通堵塞時，有些駕駛員會選擇等待，而有些則會選擇繞路。因此，如何處理不同的決策情況成為規(guī)劃問題的難點之一。

03 安全性

自動駕駛汽車需要保證安全性，如車輛控制系統(tǒng)的故障、路況不良、交通事故等安全問題都可能影響到運動規(guī)劃的準確性和安全性。因此，開發(fā)算法需要綜合考慮這些因素，并采取相應(yīng)的安全措施和風(fēng)險管理措施，以確保車輛的安全和可靠性。

04 實時性

自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策，這需要算法能夠快速地響應(yīng)，并在短時間內(nèi)做出正確的決策。

2022 年 11 月 30 日發(fā)布的 ChatGPT 的框架思路為我們的進階開發(fā)帶來了嶄新的思路。Chat-GPT(Chat Generative Pre-trained Transformer) 基于 2017 年提出的 Transformer 結(jié)構(gòu)與大模型的預(yù)訓(xùn)練過程，通過人類反饋強化學(xué)習(xí) (RLHF, Reinforcement Learning from Human Feedback)輸出更符合人類偏好的對話。它在輸出高質(zhì)量的文本內(nèi)容之外，具有很好的上下文語義處理能力能夠根據(jù)連續(xù)對話內(nèi)容進行有效優(yōu)化。

圖1 ChatGPT的發(fā)展歷程

本文的其余內(nèi)容組織如下：

第2章梳理了 ChatGPT 的人類反饋強化學(xué)習(xí)框架流程和 GPT 各代模型的主要特點。
第3 章比較了自動駕駛運動規(guī)劃算法和 ChatGPT 兩者的異同。
第4章討論了 ChatGPT 給自動駕駛運動規(guī)劃任務(wù)帶來的啟發(fā)。
第5 章總結(jié)了本文了主要內(nèi)容和觀點。

2.ChatGPT 框架

ChatGPT 通過 RLHF 訓(xùn)練模型。這一訓(xùn)練方式增加了人類對模型輸出結(jié)果的主觀排序，得到了更符合人類偏好的優(yōu)質(zhì)答案。

RLHF 主要分為三個階段

第一階段

監(jiān)督學(xué)習(xí)

隨機采樣請求收集人工撰寫的回答，訓(xùn)練監(jiān)督模型（GPT3.5 based）。

第二階段

訓(xùn)練獎勵模型

收集人工標注的模型多個輸出之間的排序數(shù)據(jù)集。并訓(xùn)練一個獎勵模型，以預(yù)測用戶更喜歡哪個模型輸出。

第三階段

基于強化學(xué)習(xí) loss 持續(xù)迭代生成模型

使用獎勵模型作為獎勵函數(shù)，以 PPO 強化學(xué)習(xí)算法，微調(diào)監(jiān)督學(xué)習(xí)訓(xùn)練出來的生成模型。

圖2 RLHF主要流程

2.1

RLHF：監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)過程通過提問 (prompt)-回答 (demonstration) 獲得的數(shù)據(jù)集對 GPT 模型結(jié)構(gòu)進行微調(diào)。下面對不同版本的 GPT 模型做一個總結(jié)。

GPT3.5 與之前的模型相比：1. 擁有更高質(zhì)量的寫作能力，產(chǎn)出更智能、更有吸引力的內(nèi)容；2. 能夠處理更復(fù)雜的指令，更靈活地使用其各種能力；3. 在較長形式的文本生成有更好的表現(xiàn)，完成過去難以承擔(dān)的任務(wù)。
近期發(fā)布的 GPT-4.0 的特點包括：1. 支持文本和圖像輸入的多模態(tài)深度學(xué)習(xí)模型；2. 在多個專業(yè)和學(xué)術(shù)基準測試中表現(xiàn)出不低于人類水平的性能；3. 訓(xùn)練效果更加穩(wěn)定；4. 具有更高的可靠性、創(chuàng)造性和能夠處理更加微妙的指令。

2.2

RLHF: 訓(xùn)練獎勵模型

訓(xùn)練獎勵模型主體流程如下：1. 對請求收集模型多個輸出；2. 人工對不同輸出進行排序；3. 訓(xùn)練獎勵模型(模型輸出為分數(shù))。
獎勵模型結(jié)構(gòu)采用階段 1 中的監(jiān)督模型將最后一層移除后添加維度為 1 的全連接層即可得到一個回歸模型。問題：如何從排序得到分數(shù)/損失函數(shù)？InstructGPT 給出了如下的損失函數(shù)：
其中 K 為不同回答的個數(shù)，σ 為sigmoid 函數(shù)，  為模型參數(shù)為 θ的獎勵模型，  為回答對  中排序較高的回答。對于排序較高的回答，最小化損失函數(shù)意味著最大化獎勵模型。

此處還有另外一個思路：ELO 算法是一種綜合評估玩家實力的算法，通過計算得到一個代表玩家實力的數(shù)值。依據(jù)此邏輯把每個偏序當作比賽，把獎勵分數(shù)看作排位分，就能夠得到獎勵分數(shù)作為輸出訓(xùn)練上述獎勵模型。
假設(shè)條件：一個答案的分數(shù)服從正態(tài)分布  ，其中  是該答案的平均分數(shù)，  為其波動水平。
那么，兩個答案之間進行排序時均分高的答案排在前邊的概率是：
其中D = μ1 ? μ2 為兩者的平均分數(shù)差。利用最小二乘法，對于某個給定的  ，我們可以得到與它的函數(shù)圖像相近的另外的一個函數(shù)，這也是實際運時更常用的函數(shù)：
初始化所有答案的平均分之后，每一對答案之間的排序可以對分數(shù)進行更新，其迭代公式為：
其中 α 為更新系數(shù)，W是排序的結(jié)果 (高位為 1，低位為 0)。

2.3

RLHF: 基于強化學(xué)習(xí) loss 持續(xù)迭代

基于強化學(xué)習(xí) loss 持續(xù)迭代的流程如下：1. 從數(shù)據(jù)集中采樣問題；2. 初始化 PPO 模型；3. 監(jiān)督模型輸出結(jié)果，獎勵模型計算獎勵分數(shù)；4. 通過獎勵分數(shù)利用 PPO 算法更新監(jiān)督模型參數(shù)。
整個流程的核心點是 PPO 算法，PPO(Proximal Policy Optimization, 近端策略優(yōu)化) 算法是強化學(xué)習(xí)中對策略梯度計算更新的一種改進算法，其訓(xùn)練速度與效果在實驗上有明顯的提升。對一組模型參數(shù) θ，可以得到一組軌跡序列的概率分布對一條由多個狀態(tài)動作對組成的軌跡τ, 有獎勵方程：。
目標函數(shù)定義為：。求解其梯度的過程:

于是可用采樣來逼近上式，注意到上式中更新時采用的樣本均來自于當前參數(shù)，且更新公式也是基于當前參數(shù)的函數(shù)，一旦采樣的樣本分布發(fā)生了變化便需要收集新數(shù)據(jù)，這導(dǎo)致訓(xùn)練需要大量互動，降低效率。為了解決這個問題，采用重要性采樣對用來更新的樣本來源進行改進。
其中 τ ～ πθ′可通過已有采樣逼近，目標函數(shù)在重要性采樣參與之下轉(zhuǎn)化為：
用  替代  ，用  替代  ，PPO算法迭代解決下述問題：


其中 β 為懲罰參數(shù)，  為 KL 散度用來約束 θ 更新的速度。

3.自動駕駛軌跡規(guī)劃算法和 ChatGPT 兩者的異同

強化學(xué)習(xí)在自動駕駛算法中的應(yīng)用相對較新，但已經(jīng)顯示出了巨大的潛力和前景。自動駕駛汽車需要通過路徑規(guī)劃算法來找到最佳的駕駛路徑。強化學(xué)習(xí)可以通過與環(huán)境的交互學(xué)習(xí)到最佳的路徑規(guī)劃策略。例如，可以使用強化學(xué)習(xí)算法來訓(xùn)練車輛在城市道路上遵守交通規(guī)則，避免碰撞和行人，并優(yōu)化車輛行駛速度和燃油效率。

ChatGPT 算法-RHL

自動駕駛規(guī)劃算法-RL

框架

1. 基于Transformer 的自回歸大模型，具有參數(shù)量大、網(wǎng)絡(luò)層數(shù)多的特點；2. 基于人工排序訓(xùn)練獎勵模型；3. 基于強化學(xué)習(xí)算法微調(diào)大模型；1.基于深度強化學(xué)習(xí)訓(xùn)練獎勵函數(shù)和策略；2.基于安全性、舒適性等方面優(yōu)化路徑；

數(shù)據(jù)來源

GPTX模型數(shù)據(jù)來自于網(wǎng)絡(luò)文本、對話數(shù)據(jù)等獲取較為容易；RLHF數(shù)據(jù)來源于人工標注排序，以對齊語言模型和人類偏好；

在封閉場地/開放路段采集大量的人類駕駛數(shù)據(jù)，獲取較為困難并且依賴感知模塊的輸出結(jié)果；

數(shù)據(jù)特點

輸入是任何自然語言文本(新版本支持圖像，多模態(tài)輸入)，輸出是響應(yīng)文本；

輸入是環(huán)境車輛和道路交通情況(根據(jù)多種傳感器數(shù)據(jù)，由多模態(tài)感知得到)，輸出是規(guī)劃軌跡；

目標

學(xué)習(xí)人類偏好，微調(diào)GPTX模型參數(shù)；

學(xué)習(xí)人類駕駛技術(shù)，獲取模型參數(shù)；

獎勵函數(shù)

基于語法正確性、連貫性和相關(guān)性等方面的人類排序結(jié)果訓(xùn)練獎勵函數(shù)；

基于平滑性、安全性、舒適性、并道意愿等方面給出的獎勵函數(shù)或者通過逆強化學(xué)習(xí)訓(xùn)練得到；

學(xué)習(xí)算法

PRO；

PPO；
TRPO(Trust Region Policy Opt)；
DQN(Deep Q-Network)；
Actor-Criti；

容錯度

對于模型訓(xùn)練有一定容錯度。

追求功能安全、信息安全等方面的高要求，對于模型訓(xùn)練的容錯度極低。

表2 chatGPT的流程框架與自動駕駛規(guī)劃方案的差異對比

強化學(xué)習(xí)的描述如下：假設(shè)未知環(huán)境 (unknown environment) 中有一個智能體 (agent)，該智能體與環(huán)境互動可獲得獎勵 (reward)。智能體以最大化累計獎勵 (maximize cumulative rewards) 為目標采取行動 (action)。
首先定義標記如下：狀態(tài)：行為：策略：狀態(tài)轉(zhuǎn)移概率：衰減系數(shù)：回報函數(shù)：狀態(tài)價值方程：行為價值方程：強化學(xué)習(xí)的目標是尋找最優(yōu)策略：接下來我們列舉在 chatGPT 的流程框架與自動駕駛規(guī)劃方案的差異對比，具體如表2所示。接下來我們列舉在 ChatGPT 的流程框架與自動駕駛規(guī)劃方案的差異對比，具體如表2所示。

規(guī)劃算法優(yōu)化方向-來自于 ChatGPT 的啟發(fā)

ChatGPT 算法框架是一種基于深度學(xué)習(xí)的模型，其具有以下幾個特點：

基于大數(shù)據(jù)集的預(yù)訓(xùn)練：ChatGPT 使用海量的語料庫進行預(yù)訓(xùn)練，從而使得模型具備了更加廣泛的語言理解能力。
自回歸生成：ChatGPT 使用自回歸生成技術(shù)生成文本，最大化下述似然函數(shù)，能夠在保持語法、語義正確的前提下，生成具有邏輯性和連貫性的文本。

其中為字符 (token)，k 為文本窗口的尺寸。
多層級注意力機制：ChatGPT 使用多層級的注意力機制，無論是從參數(shù)數(shù)量還是網(wǎng)絡(luò)深度的角度來看遠遠高于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，能夠在處理輸入序列時關(guān)注不同層級的信息，從而提高模型的準確性和魯棒性。
人類反饋強化學(xué)習(xí)的框架：在模型預(yù)訓(xùn)練完之后，ChatGPT 依賴人類專家提供的大量反饋結(jié)果訓(xùn)練獎勵函數(shù)，利用強化學(xué)習(xí)迭代微調(diào)模型參數(shù)，能夠提高學(xué)習(xí)效率和性能。
這些特點可以為自動駕駛規(guī)劃算法框架帶來以下啟發(fā)：? 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù)：自動駕駛規(guī)劃算法需要處理復(fù)雜的場景和環(huán)境，因此可以通過利用大規(guī)模的數(shù)據(jù)集 (包括真實數(shù)據(jù)以及泛化仿真數(shù)據(jù)) 進行預(yù)訓(xùn)練，提高算法的智能化程度和適應(yīng)性。
? 借鑒自回歸生成技術(shù)：自動駕駛規(guī)劃算法需要在復(fù)雜的路況下做出決策，因此可以借鑒自回歸生成技術(shù)，學(xué)習(xí)老司機的駕駛經(jīng)驗和技術(shù)，從而保證決策的正確性和安全性。? 借鑒多層級注意力機制：自動駕駛規(guī)劃算法處理關(guān)于空間的時序信息，需要能夠抓取上下文聯(lián)系的能力，可以借鑒 Transformer 的多層級注意力機制，通過大規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)提高算法性能，從而能夠在路徑規(guī)劃時更加準確、全面。
? 借鑒人類反饋強化學(xué)習(xí)的框架：自動駕駛算法需要滿足安全性和合法性等要求，然而深度學(xué)習(xí)算法具有“黑盒性”和“不可解釋性”使得并非所有策略都是可行的，可以借鑒人類反饋強化學(xué)習(xí)的框架將大量基于安全性、合法性等條件的評價反饋給自動駕駛規(guī)劃算法，通過強化學(xué)習(xí)模式不斷迭代微調(diào)相關(guān)模型。

圖3 ChatGPT 的特點及其帶來的啟發(fā)

總之，ChatGPT 算法框架的特點可以為自動駕駛規(guī)劃算法提供啟發(fā)，從而幫助其更好地應(yīng)對復(fù)雜的場景和環(huán)境，提升算法的智能化程度和安全性。

5.總結(jié)

本文主要介紹了 ChatGPT 框架和 GPT 各代模型的主要特點，及其引發(fā)的對自動駕駛規(guī)劃

任務(wù)未來優(yōu)化方向的探討。ChatGPT 的學(xué)習(xí)思維提供了如下可借鑒的方向：

1. 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù)；

2. 借鑒自回歸生成技術(shù)；

3. 借鑒多層級注意力機制以及大模型設(shè)計；

4. 借鑒人類反饋強化學(xué)習(xí)的框架。

參考文獻

[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.

[OWJ+22] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Train-ing language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.

[RNS+18] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.

[RWC+19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

[SWD+17] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov.Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：20000次碰撞試驗是這樣煉成的
上一篇：蔚小理加速研發(fā)投入：研發(fā)均超50億！

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

ChatGPT 框架帶給自動駕駛規(guī)劃任務(wù)的啟發(fā)

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

ChatGPT 框架帶給自動駕駛規(guī)劃任務(wù)的啟發(fā)

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將