日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

深度學(xué)習(xí)在道路封閉挖掘方案的探索與實(shí)踐

2019-09-04 22:29:18·  來源:高德技術(shù)  
 
1.導(dǎo)讀還原真實(shí)世界是每個(gè)地圖技術(shù)人的追求,愿意為此付出不懈努力。隨著地圖靜態(tài)路網(wǎng)的完善,道路上動(dòng)態(tài)發(fā)生的事件,對(duì)用戶出行的影響逐漸突顯出來,尤其是道路
1.導(dǎo)讀
還原真實(shí)世界是每個(gè)地圖技術(shù)人的追求,愿意為此付出不懈努力。隨著地圖靜態(tài)路網(wǎng)的完善,道路上動(dòng)態(tài)發(fā)生的事件,對(duì)用戶出行的影響逐漸突顯出來,尤其是道路上發(fā)生的封閉事件。
為了挖掘道路上的封閉事件,高德技術(shù)團(tuán)隊(duì)設(shè)計(jì)了一套半監(jiān)督的深度學(xué)習(xí)方案。下面通過業(yè)務(wù)背景、解決方案、建模方法以及業(yè)務(wù)落地四個(gè)方面展開說明。
 
2.業(yè)務(wù)背景
動(dòng)態(tài)事件是道路通行能力的變化進(jìn)而影響用戶出行的事件。通過動(dòng)態(tài)事件的描述,可以了解動(dòng)態(tài)事件包含兩個(gè)要素,第一個(gè)是通行能力的變化,第二個(gè)是影響用戶出行。
動(dòng)態(tài)事件基本類型是封閉、施工、事故,如圖1所示。其中封閉是道路通行能力極弱,正常車輛不能通行,特殊車輛才可能通行;封閉影響用戶出行,需要用戶掉頭并繞路才能到達(dá)目的地,嚴(yán)重影響用戶的出行。
圖1 動(dòng)態(tài)事件定義及基本類型
為了對(duì)動(dòng)態(tài)事件有形象的理解,圖2展示了動(dòng)態(tài)事件的常見情況。第一張圖展示了天氣類的封路,雨雪霧等均可能引起道路封閉。第二張圖展示了管制類封路,如道路要進(jìn)行馬拉松比賽,所以管制性封路。第三張圖像展示了施工類封路,第四張圖展示了施工但未封閉的情況。
圖2 動(dòng)態(tài)事件示例
 
高德有多種發(fā)現(xiàn)封路事件的方法,本文主要介紹基于用戶軌跡數(shù)據(jù)的動(dòng)態(tài)事件挖掘算法。
圖3中第一張圖片展示了道路封閉發(fā)生后,流量從100左右跌到了0;第二張圖片展示了車輛的軌跡不能正常通過某一段道路,需要掉頭并繞路通過;第三張展示了一條道路不能通行,道路上沒有車輛的GPS點(diǎn)。熱力用來描述GPS點(diǎn)的密度,GPS點(diǎn)密度越高,熱力越明顯,顏色越深。
圖3 封閉事件的大數(shù)據(jù)線索
封路問題主要拆分為新增和消散兩部分工作來展開的。新增和消散對(duì)應(yīng)封閉事件的上線和下線。封閉問題之所以分為新增和消散,主要原因是新增和消散在業(yè)務(wù)分布上有著很大的差異。
新增問題是面向全路網(wǎng)的數(shù)據(jù),封閉事件是小概率事件,發(fā)現(xiàn)封閉事件前會(huì)進(jìn)行導(dǎo)航規(guī)劃。消散面向的是線上事件,絕大部分為封閉事件,不進(jìn)行導(dǎo)航規(guī)劃。本文主要介紹封路新增問題。下面開始介紹封路挖掘的解決方案。
 
3.解決方案
高德在處理動(dòng)態(tài)事件時(shí),基本邏輯是利用已知數(shù)據(jù),找出疑似封閉事件,之后再進(jìn)行提純,產(chǎn)出封閉事件并進(jìn)行上線。按照此邏輯,產(chǎn)線處理過程分為三個(gè)層次:
  • 數(shù)據(jù)層
  • 發(fā)現(xiàn)層
  • 驗(yàn)證層
大數(shù)據(jù)的解決方案也是基于此三層架構(gòu)來設(shè)計(jì)的。經(jīng)過系統(tǒng)化設(shè)計(jì)最終確定了分層化、半監(jiān)督的深度學(xué)習(xí)方案,該方案可用于離線挖掘,也可以用于實(shí)時(shí)挖掘。整體方案如圖4所示:
圖4 整體解決方案
本方案主要包括如下5個(gè)部分:
  • 基礎(chǔ)數(shù)據(jù):基礎(chǔ)數(shù)據(jù)主要用到了靜態(tài)數(shù)據(jù)及動(dòng)態(tài)數(shù)據(jù),靜態(tài)數(shù)據(jù)主要包括路網(wǎng)及其屬性,動(dòng)態(tài)數(shù)據(jù)主要是用戶的軌跡、規(guī)劃、偏航等;
  • 召回模塊:為了發(fā)現(xiàn)疑似封閉事件,設(shè)計(jì)了召回模塊。召回模塊在搜索、廣告等任務(wù)中均會(huì)使用。流量下降、掉頭增多、偏航增多、熱力截?cái)嗍堑湫偷恼倩夭呗裕?/li>
  • 特征提?。簶I(yè)務(wù)建模過程中會(huì)將流量、規(guī)劃、偏航、熱力的數(shù)據(jù)在拓?fù)浣Y(jié)構(gòu)及時(shí)序上進(jìn)行建模,產(chǎn)出相應(yīng)的特征;
  • LSTM+ResNet預(yù)測:模型部分圍繞時(shí)序模型及卷積模型進(jìn)行了探索,如TCN、LSTM、GRU等。最終設(shè)計(jì)了LSTMResNet組合模型用于線上業(yè)務(wù);
  • 分層產(chǎn)出:模型置信度越高,封閉準(zhǔn)確率越高。不同的置信度可以分層化產(chǎn)出,高置信的產(chǎn)出自動(dòng)化上線的同時(shí),中低置信度的產(chǎn)出人工協(xié)助上線,低置信度的產(chǎn)出能夠賦能產(chǎn)線,大數(shù)據(jù)協(xié)同其他事件源一起挖掘封閉事件。
4.建模方法
4.1 路網(wǎng)建模
路網(wǎng)是一張有向圖,每一條邊,也就是路網(wǎng)中的一條路,被稱為一條link。路網(wǎng)建模分為空間建模、業(yè)務(wù)數(shù)據(jù)建模、時(shí)序建模三個(gè)步驟,如圖5所示。將路網(wǎng)三步建模展開描述,分別是:
  • 空間建模:路網(wǎng)按拓?fù)浣Y(jié)構(gòu)拆分,分為上游links、當(dāng)前l(fā)ink、下游links;
  • 業(yè)務(wù)數(shù)據(jù)在道路空間上的建模:基于拆分后的拓?fù)浣Y(jié)構(gòu),對(duì)當(dāng)前l(fā)ink及上下游links在規(guī)劃、流量、偏航、熱力幾方面進(jìn)行建模,形成一個(gè)39維的特征向量;
  • 時(shí)序建模:我們的業(yè)務(wù)是典型的時(shí)序問題。以流量下降為例說明,道路封閉前,流量在100左右波動(dòng);道路封閉過程中,流量是逐漸下降的過程;道路封閉后,流量在0附近波動(dòng),基本無車輛通行。道路從非封閉到封閉的過程,是流量在時(shí)序上逐漸下降到0附近的過程。我們選取了四周的時(shí)間序列,每一天的數(shù)據(jù)是上一步提取的對(duì)應(yīng)日期的39維特征向量。
圖5 路網(wǎng)建模方法
4.2 算法建模
從時(shí)序建模開始,到最終選定時(shí)序和卷積的組合模型,LSTMResNet模型,我們經(jīng)歷了一系列的探索:
  • 鑒于我們的業(yè)務(wù)是典型的時(shí)序問題,所以從經(jīng)典的時(shí)序模型LSTM、GRU進(jìn)行實(shí)驗(yàn);
  • 有了經(jīng)典的模型,就希望在“state of the art”的時(shí)序模型上實(shí)驗(yàn),所以調(diào)研了TCN并進(jìn)行實(shí)驗(yàn)。最終TCN實(shí)驗(yàn)表現(xiàn)優(yōu)于LSTM、GRU;
  • 本著“他山之石可以攻玉”的想法,我們也實(shí)驗(yàn)了CNN經(jīng)典模型ResNet,ResNet表現(xiàn)雖不如TCN,但與GRU相當(dāng),優(yōu)于LSTM。重要的是TCN表現(xiàn)優(yōu)秀的原因之一就是內(nèi)部運(yùn)用了ResNet Block;
  • 鑒于ResNet表現(xiàn)優(yōu)秀,所以有了時(shí)序+ResNet的想法。于是我們?cè)囼?yàn)了LSTM+ResNet的模型,稱為LSTMResNet模型。
快、準(zhǔn)、穩(wěn)是我們選取模型的主要考慮因素。“快”指的是挖掘周期短,LSTM比TCN需要的序列更短;“準(zhǔn)”指的是挖掘的準(zhǔn)確率高,LSTMResNet模型的準(zhǔn)確率最高;“穩(wěn)”指的是模型潛在的惡劣badcase更少,越是經(jīng)典常用的模型,一般認(rèn)為模型潛在問題更少。
 
基于快、準(zhǔn)、穩(wěn)的考慮,我們選取了LSTMResNet,并進(jìn)行后續(xù)的業(yè)務(wù)迭代、落地。
 
LSTMResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,輸入特征向量經(jīng)過LSTM網(wǎng)絡(luò)層,LSTM的輸出作為ResNet的輸入,ResNet的輸出連接全連接層,最后全連接層與只有兩個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)層連接,這兩個(gè)節(jié)點(diǎn)就是二分類的置信度。輸入向量是長度為28,表示28天,每天特征是39維的特征向量;LSTM輸出向量是長度為28,有5個(gè)隱層的網(wǎng)絡(luò)層。
ResNet是由7個(gè)ResNet Block組成。每個(gè)ResNet Block內(nèi)部都會(huì)進(jìn)行卷積、歸一化、ReLU運(yùn)算,ResNet Block運(yùn)算結(jié)果與ResNet Block的輸入向量進(jìn)行相加。
LSTMResNet模型參數(shù)整體較少,LSTM只有5個(gè)隱層;ResNet只有七個(gè)Block,包含14個(gè)網(wǎng)絡(luò)層。這是因?yàn)槟P蛷?fù)雜的情況下,非常容易過擬合,所以模型參數(shù)配置時(shí)沒有使用更多的神經(jīng)元。
圖6 LSTMResNet網(wǎng)絡(luò)結(jié)構(gòu)
為了克服過擬合問題,我們?cè)赗esNet中使用Batch Normalization的同時(shí),還使用了dropout,圖7是dropout取值不同時(shí)的表現(xiàn)(數(shù)據(jù)來自中間實(shí)驗(yàn)過程):
圖7 dropout調(diào)參
5.
業(yè)務(wù)落地
業(yè)務(wù)建模之后進(jìn)行業(yè)務(wù)落地的工作,主要考慮兩個(gè)方面:
  • 模型落地方式:當(dāng)前業(yè)務(wù)的主要需求是高置信的產(chǎn)出能夠達(dá)到人工標(biāo)注的準(zhǔn)確率,這部分產(chǎn)出將自動(dòng)化上線,要模型產(chǎn)出準(zhǔn)確率不比人工標(biāo)注準(zhǔn)確率差,這是非常高的一個(gè)標(biāo)準(zhǔn)。基于高置信產(chǎn)出必須高準(zhǔn)確率的要求,我們采用半監(jiān)督的方法提升了高置信產(chǎn)出的準(zhǔn)確率;
  • 業(yè)務(wù)風(fēng)險(xiǎn)預(yù)防:為了防止模型上線后出現(xiàn)一些影響面較大、明顯背離業(yè)務(wù)常識(shí)的badcase,我們對(duì)模型進(jìn)行了可解釋性分析,分析模型的產(chǎn)出是否符合業(yè)務(wù)常識(shí)。
5.1 半監(jiān)督助力業(yè)務(wù)落地
半監(jiān)督方法是一種介于監(jiān)督和非監(jiān)督的方法,本文半監(jiān)督實(shí)現(xiàn)的主要思路是:首先,用數(shù)量較少的高精樣本數(shù)據(jù)學(xué)習(xí)模型,其次,用該模型對(duì)線上差分樣本預(yù)測,最后,將預(yù)測的高置信部分樣本作為帶標(biāo)簽數(shù)據(jù),重新訓(xùn)練模型,得到最終的模型。實(shí)驗(yàn)過程如圖8所示:
圖8 半監(jiān)督實(shí)驗(yàn)流程
為了評(píng)測半監(jiān)督訓(xùn)練的模型的高置信部分的準(zhǔn)確率,分別評(píng)測模型V1和模型V2在業(yè)務(wù)數(shù)據(jù)上產(chǎn)出的topN準(zhǔn)確率,模型V2比模型V1準(zhǔn)確率高10個(gè)百分點(diǎn),由此可見,半監(jiān)督方法非常明顯的提升了高置信樣本的準(zhǔn)確率。
5.2 業(yè)務(wù)數(shù)據(jù)驗(yàn)證
業(yè)務(wù)數(shù)據(jù)驗(yàn)證,主要是通過分析流量、規(guī)劃、偏航、熱力這四類主要特征是否符合業(yè)務(wù)常識(shí),來解釋模型對(duì)封閉事件的刻畫是否符合業(yè)務(wù)預(yù)期。模型在流量、規(guī)劃、偏航、熱力上符合業(yè)務(wù)預(yù)期,則模型產(chǎn)出惡劣badcase的可能較小。
實(shí)驗(yàn)方法是,首先提取北京市某天的業(yè)務(wù)數(shù)據(jù),其次使用模型進(jìn)行預(yù)測,最后按置信度統(tǒng)計(jì)分析。業(yè)務(wù)數(shù)據(jù)驗(yàn)證結(jié)論如下:
  • 模型置信度在流量、規(guī)劃、偏航、熱力截?cái)噙@四方面均符合業(yè)務(wù)常識(shí);
  • 置信度能夠刻畫事件有無;
  • 置信度越高封閉可能性越大
6.小結(jié)
本文介紹了動(dòng)態(tài)事件和封閉事件的概念。為了挖掘封閉事件,我們?cè)O(shè)計(jì)了一套半監(jiān)督的深度學(xué)習(xí)方案,較為詳細(xì)的介紹了路網(wǎng)建模、TCN及LSTM等深度學(xué)習(xí)建模。 為了防止模型產(chǎn)出背離業(yè)務(wù)常識(shí),進(jìn)行了業(yè)務(wù)數(shù)據(jù)驗(yàn)證,實(shí)驗(yàn)表明模型挖出的封閉事件符合業(yè)務(wù)常識(shí)。 封閉事件的挖掘能夠更好幫助用戶合理的規(guī)劃路線、提高用戶體驗(yàn)。
 
 
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25