日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

ChatGPT 框架帶給自動駕駛規(guī)劃任務(wù)的啟發(fā)

2023-03-30 19:52:51·  來源:賽目科技  
 
軌跡規(guī)劃是自動駕駛算法中的一個重要任務(wù),其目的是根據(jù)車輛當前的狀態(tài)和環(huán)境信息,確定車輛的行駛路線傳遞到控制模塊以實現(xiàn)自動駕駛。而這個問題是非常復(fù)雜的,其難點包括了以下幾個方面1. 引言01不確定性自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策,

軌跡規(guī)劃是自動駕駛算法中的一個重要任務(wù),其目的是根據(jù)車輛當前的狀態(tài)和環(huán)境信息,確定車輛的行駛路線傳遞到控制模塊以實現(xiàn)自動駕駛。而這個問題是非常復(fù)雜的,其難點包括了以下幾個方面


1. 引言

01 不確定性

自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策,但這些環(huán)境是充滿不確定性的。例如,突然出現(xiàn)的障礙物、交通擁堵等情況都可能影響決策的正確性。而車輛駕駛事件具有“長尾效應(yīng)”和“小概率事件”特點,為算法帶來巨大挑戰(zhàn)。

02 多樣性

不同的駕駛場景、路況和駕駛習(xí)慣會導(dǎo)致決策的多樣性。例如,在遇到交通堵塞時,有些駕駛員會選擇等待,而有些則會選擇繞路。因此,如何處理不同的決策情況成為規(guī)劃問題的難點之一。

03 安全性

自動駕駛汽車需要保證安全性,如車輛控制系統(tǒng)的故障、路況不良、交通事故等安全問題都可能影響到運動規(guī)劃的準確性和安全性。因此,開發(fā)算法需要綜合考慮這些因素,并采取相應(yīng)的安全措施和風(fēng)險管理措施,以確保車輛的安全和可靠性。

04 實時性

自動駕駛汽車需要在實時變化的交通環(huán)境中做出決策,這需要算法能夠快速地響應(yīng),并在短時間內(nèi)做出正確的決策。

2022 年 11 月 30 日發(fā)布的 ChatGPT 的框架思路為我們的進階開發(fā)帶來了嶄新的思路。Chat-GPT(Chat Generative Pre-trained Transformer) 基于 2017 年提出的 Transformer 結(jié)構(gòu)與大模型的預(yù)訓(xùn)練過程,通過人類反饋強化學(xué)習(xí) (RLHF, Reinforcement Learning from Human Feedback)輸出更符合人類偏好的對話。它在輸出高質(zhì)量的文本內(nèi)容之外,具有很好的上下文語義處理能力能夠根據(jù)連續(xù)對話內(nèi)容進行有效優(yōu)化。

圖片

圖1  ChatGPT的發(fā)展歷程


本文的其余內(nèi)容組織如下:

  • 第2章梳理了 ChatGPT 的人類反饋強化學(xué)習(xí)框架流程和 GPT 各代模型的主要特點。

  • 第3 章比較了自動駕駛運動規(guī)劃算法和 ChatGPT 兩者的異同。

  • 第4章討論了 ChatGPT 給自動駕駛運動規(guī)劃任務(wù)帶來的啟發(fā)。

  • 第5 章總結(jié)了本文了主要內(nèi)容和觀點。

2.ChatGPT 框架

ChatGPT 通過 RLHF 訓(xùn)練模型。這一訓(xùn)練方式增加了人類對模型輸出結(jié)果的主觀排序,得到了更符合人類偏好的優(yōu)質(zhì)答案。

RLHF 主要分為三個階段

第一階段

監(jiān)督學(xué)習(xí)

隨機采樣請求收集人工撰寫的回答,訓(xùn)練監(jiān)督模型(GPT3.5 based)。

第二階段

訓(xùn)練獎勵模型

收集人工標注的模型多個輸出之間的排序數(shù)據(jù)集。并訓(xùn)練一個獎勵模型,以預(yù)測用戶更喜歡哪個模型輸出。

第三階段

基于強化學(xué)習(xí) loss 持續(xù)迭代生成模型

使用獎勵模型作為獎勵函數(shù),以 PPO 強化學(xué)習(xí)算法,微調(diào)監(jiān)督學(xué)習(xí)訓(xùn)練出來的生成模型。


圖片

圖2  RLHF主要流程


2.1

RLHF:監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)過程通過提問 (prompt)-回答 (demonstration) 獲得的數(shù)據(jù)集對 GPT 模型結(jié)構(gòu)進行微調(diào)。下面對不同版本的 GPT 模型做一個總結(jié)。


GPT3.5 與之前的模型相比:1. 擁有更高質(zhì)量的寫作能力,產(chǎn)出更智能、更有吸引力的內(nèi)容;2. 能夠處理更復(fù)雜的指令,更靈活地使用其各種能力;3. 在較長形式的文本生成有更好的表現(xiàn),完成過去難以承擔(dān)的任務(wù)。
近期發(fā)布的 GPT-4.0 的特點包括:1. 支持文本和圖像輸入的多模態(tài)深度學(xué)習(xí)模型;2. 在多個專業(yè)和學(xué)術(shù)基準測試中表現(xiàn)出不低于人類水平的性能;3. 訓(xùn)練效果更加穩(wěn)定;4. 具有更高的可靠性、創(chuàng)造性和能夠處理更加微妙的指令。

2.2

RLHF: 訓(xùn)練獎勵模型

訓(xùn)練獎勵模型主體流程如下:1. 對請求收集模型多個輸出;2. 人工對不同輸出進行排序;3. 訓(xùn)練獎勵模型(模型輸出為分數(shù))。
獎勵模型結(jié)構(gòu)采用階段 1 中的監(jiān)督模型將最后一層移除后添加維度為 1 的全連接層即可得到一個回歸模型。問題:如何從排序得到分數(shù)/損失函數(shù)?InstructGPT 給出了如下的損失函數(shù):  
其中 K 為不同回答的個數(shù),σ sigmoid 函數(shù),  為模型參數(shù)為 θ的獎勵模型,  為回答對  中排序較高的回答。對于排序較高的回答,最小化損失函數(shù)意味著最大化獎勵模型。

此處還有另外一個思路:ELO 算法是一種綜合評估玩家實力的算法,通過計算得到一個代表玩家實力的數(shù)值。依據(jù)此邏輯把每個偏序當作比賽,把獎勵分數(shù)看作排位分,就能夠得到獎勵分數(shù)作為輸出訓(xùn)練上述獎勵模型。
假設(shè)條件:一個答案的分數(shù)服從正態(tài)分布  ,其中  是該答案的平均分數(shù),  為其波動水平。
那么,兩個答案之間進行排序時均分高的答案排在前邊的概率是:  
其中= μ1 ? μ2 為兩者的平均分數(shù)差。利用最小二乘法,對于某個給定的  ,我們可以得到與它的函數(shù)圖像相近的另外的一個函數(shù),這也是實際運時更常用的函數(shù):  
初始化所有答案的平均分之后,每一對答案之間的排序可以對分數(shù)進行更新,其迭代公式為:  
其中 α 為更新系數(shù),W是排序的結(jié)果 (高位為 1,低位為 0)。


2.3

RLHF: 基于強化學(xué)習(xí) loss 持續(xù)迭代

基于強化學(xué)習(xí) loss 持續(xù)迭代的流程如下:1. 從數(shù)據(jù)集中采樣問題;2. 初始化 PPO 模型;3. 監(jiān)督模型輸出結(jié)果,獎勵模型計算獎勵分數(shù);4. 通過獎勵分數(shù)利用 PPO 算法更新監(jiān)督模型參數(shù)。
整個流程的核心點是 PPO 算法,PPO(Proximal Policy Optimization, 近端策略優(yōu)化算法是強化學(xué)習(xí)中對策略梯度計算更新的一種改進算法,其訓(xùn)練速度與效果在實驗上有明顯的提升。對一組模型參數(shù) θ,可以得到一組軌跡序列的概率分布   對一條由多個狀態(tài)動作對組成的軌跡τ, 有獎勵方程:  。
目標函數(shù)定義為:  。求解其梯度的過程:

圖片


圖片


于是可用采樣來逼近上式,注意到上式中更新時采用的樣本均來自于當前參數(shù),且更新公式也是基于當前參數(shù)的函數(shù),一旦采樣的樣本分布發(fā)生了變化便需要收集新數(shù)據(jù),這導(dǎo)致訓(xùn)練需要大量互動,降低效率。為了解決這個問題,采用重要性采樣對用來更新的樣本來源進行改進。    
其中 τ  πθ′可通過已有采樣逼近,目標函數(shù)在重要性采樣參與之下轉(zhuǎn)化為:  
用  替代  ,用  替代  ,PPO算法迭代解決下述問題:
  

其中 β 為懲罰參數(shù),   KL 散度用來約束 θ 更新的速度。


3.自動駕駛軌跡規(guī)劃算法和 ChatGPT 兩者的異同

強化學(xué)習(xí)在自動駕駛算法中的應(yīng)用相對較新,但已經(jīng)顯示出了巨大的潛力和前景。自動駕駛汽車需要通過路徑規(guī)劃算法來找到最佳的駕駛路徑。強化學(xué)習(xí)可以通過與環(huán)境的交互學(xué)習(xí)到最佳的路徑規(guī)劃策略。例如,可以使用強化學(xué)習(xí)算法來訓(xùn)練車輛在城市道路上遵守交通規(guī)則,避免碰撞和行人,并優(yōu)化車輛行駛速度和燃油效率。


ChatGPT 算法-RHL

自動駕駛規(guī)劃算法-RL

框架

1. 基于Transformer 的自回歸大模型,具有參數(shù)量大、網(wǎng)絡(luò)層數(shù)多的特點;2. 基于人工排序訓(xùn)練獎勵模型;3. 基于強化學(xué)習(xí)算法微調(diào)大模型;1.基于深度強化學(xué)習(xí)訓(xùn)練獎勵函數(shù)和策略;2.基于安全性、舒適性等方面優(yōu)化路徑;

數(shù)據(jù)來源

GPTX模型數(shù)據(jù)來自于網(wǎng)絡(luò)文本、對話數(shù)據(jù)等獲取較為容易;RLHF數(shù)據(jù)來源于人工標注排序,以對齊語言模型和人類偏好;

在封閉場地/開放路段采集大量的人類駕駛數(shù)據(jù),獲取較為困難并且依賴感知模塊的輸出結(jié)果;

數(shù)據(jù)特點

輸入是任何自然語言文本(新版本支持圖像,多模態(tài)輸入),輸出是響應(yīng)文本;

輸入是環(huán)境車輛和道路交通情況(根據(jù)多種傳感器數(shù)據(jù),由多模態(tài)感知得到),輸出是規(guī)劃軌跡;

目標

學(xué)習(xí)人類偏好,微調(diào)GPTX模型參數(shù);

學(xué)習(xí)人類駕駛技術(shù),獲取模型參數(shù);

獎勵函數(shù)

基于語法正確性、連貫性和相關(guān)性等方面的人類排序結(jié)果訓(xùn)練獎勵函數(shù);

基于平滑性、安全性、舒適性、并道意愿等方面給出的獎勵函數(shù)或者通過逆強化學(xué)習(xí)訓(xùn)練得到;

學(xué)習(xí)算法

PRO;

PPO;
TRPO(Trust Region Policy Opt);
DQN(Deep Q-Network);
Actor-Criti;

容錯度

對于模型訓(xùn)練有一定容錯度。

追求功能安全、信息安全等方面的高要求,對于模型訓(xùn)練的容錯度極低。

表2  chatGPT的流程框架與自動駕駛規(guī)劃方案的差異對比

強化學(xué)習(xí)的描述如下:假設(shè)未知環(huán)境 (unknown environment) 中有一個智能體 (agent),該智能體與環(huán)境互動可獲得獎勵 (reward)。智能體以最大化累計獎勵 (maximize cumulative rewards) 為目標采取行動 (action)。
首先定義標記如下:狀態(tài):  行為:  策略:  狀態(tài)轉(zhuǎn)移概率:  衰減系數(shù):  回報函數(shù):  狀態(tài)價值方程:  行為價值方程:  強化學(xué)習(xí)的目標是尋找最優(yōu)策略:接下來我們列舉在 chatGPT 的流程框架與自動駕駛規(guī)劃方案的差異對比,具體如表2所示。  接下來我們列舉在 ChatGPT 的流程框架與自動駕駛規(guī)劃方案的差異對比,具體如表2所示。

4.

規(guī)劃算法優(yōu)化方向-來自于 ChatGPT 的啟發(fā)

ChatGPT 算法框架是一種基于深度學(xué)習(xí)的模型,其具有以下幾個特點:

基于大數(shù)據(jù)集的預(yù)訓(xùn)練:ChatGPT 使用海量的語料庫進行預(yù)訓(xùn)練,從而使得模型具備了更加廣泛的語言理解能力。
自回歸生成:ChatGPT 使用自回歸生成技術(shù)生成文本,最大化下述似然函數(shù),能夠在保持語法、語義正確的前提下,生成具有邏輯性和連貫性的文本。 

圖片

其中  為字符 (token),為文本窗口的尺寸。
多層級注意力機制:ChatGPT 使用多層級的注意力機制,無論是從參數(shù)數(shù)量還是網(wǎng)絡(luò)深度的角度來看遠遠高于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),能夠在處理輸入序列時關(guān)注不同層級的信息,從而提高模型的準確性和魯棒性。
人類反饋強化學(xué)習(xí)的框架:在模型預(yù)訓(xùn)練完之后,ChatGPT 依賴人類專家提供的大量反饋結(jié)果訓(xùn)練獎勵函數(shù),利用強化學(xué)習(xí)迭代微調(diào)模型參數(shù),能夠提高學(xué)習(xí)效率和性能。
這些特點可以為自動駕駛規(guī)劃算法框架帶來以下啟發(fā):? 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù):自動駕駛規(guī)劃算法需要處理復(fù)雜的場景和環(huán)境,因此可以通過利用大規(guī)模的數(shù)據(jù)集 (包括真實數(shù)據(jù)以及泛化仿真數(shù)據(jù)) 進行預(yù)訓(xùn)練,提高算法的智能化程度和適應(yīng)性。
? 借鑒自回歸生成技術(shù):自動駕駛規(guī)劃算法需要在復(fù)雜的路況下做出決策,因此可以借鑒自回歸生成技術(shù),學(xué)習(xí)老司機的駕駛經(jīng)驗和技術(shù),從而保證決策的正確性和安全性。? 借鑒多層級注意力機制:自動駕駛規(guī)劃算法處理關(guān)于空間的時序信息,需要能夠抓取上下文聯(lián)系的能力,可以借鑒 Transformer 的多層級注意力機制,通過大規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)提高算法性能,從而能夠在路徑規(guī)劃時更加準確、全面。
? 借鑒人類反饋強化學(xué)習(xí)的框架:自動駕駛算法需要滿足安全性和合法性等要求,然而深度學(xué)習(xí)算法具有“黑盒性”和“不可解釋性”使得并非所有策略都是可行的,可以借鑒人類反饋強化學(xué)習(xí)的框架將大量基于安全性、合法性等條件的評價反饋給自動駕駛規(guī)劃算法,通過強化學(xué)習(xí)模式不斷迭代微調(diào)相關(guān)模型。

圖片

圖3  ChatGPT 的特點及其帶來的啟發(fā)

總之,ChatGPT 算法框架的特點可以為自動駕駛規(guī)劃算法提供啟發(fā),從而幫助其更好地應(yīng)對復(fù)雜的場景和環(huán)境,提升算法的智能化程度和安全性。

5.總結(jié)

本文主要介紹了 ChatGPT 框架和 GPT 各代模型的主要特點,及其引發(fā)的對自動駕駛規(guī)劃

任務(wù)未來優(yōu)化方向的探討。ChatGPT 的學(xué)習(xí)思維提供了如下可借鑒的方向:

1. 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù);

2. 借鑒自回歸生成技術(shù);

3. 借鑒多層級注意力機制以及大模型設(shè)計;

4. 借鑒人類反饋強化學(xué)習(xí)的框架。

參考文獻

[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.


[OWJ+22] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Train-ing language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.


[RNS+18] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.


[RWC+19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.


[SWD+17] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov.Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25