日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于汽車研發(fā)的知識圖譜構(gòu)建方法淺談

2021-06-29 23:14:33·  來源:上汽安全與CAE技術(shù)  
 
背景隨著大量互聯(lián)網(wǎng)汽車公司的涌現(xiàn),搶占市場先機(jī)已經(jīng)成為了公司快速發(fā)展的硬道理。面對爭分奪秒的汽車研發(fā)周期,如何讓新人快速的上手項目研發(fā)工作,如何在開發(fā)
背景

隨著大量互聯(lián)網(wǎng)汽車公司的涌現(xiàn),搶占市場先機(jī)已經(jīng)成為了公司快速發(fā)展的硬道理。面對爭分奪秒的汽車研發(fā)周期,如何讓新人快速的上手項目研發(fā)工作,如何在開發(fā)過程中快速找到問題所在,已成為數(shù)字化轉(zhuǎn)型過程中重要的一步。知識圖譜,從2012年google搜索開始進(jìn)入大眾視線,成為炙手可熱的技術(shù),目前廣泛應(yīng)用于機(jī)器翻譯、聊天機(jī)器人、智能醫(yī)療、智能推薦等領(lǐng)域。汽車行業(yè)廣為人知的知識圖譜應(yīng)用目前定位在聊天機(jī)器人領(lǐng)域。知識圖譜能夠通過挖掘,通過語義關(guān)聯(lián)把各種實體關(guān)聯(lián)起來,構(gòu)建大型語義網(wǎng)絡(luò),從而把結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)通過數(shù)據(jù)抽取、融合在一起,能夠有助于更好的高效利用數(shù)據(jù)。

目前還沒有團(tuán)隊去研究過汽車開發(fā)知識相關(guān)的語義關(guān)系以及知識圖譜的構(gòu)建,但汽車研發(fā)的知識圖譜構(gòu)建對于整車研發(fā)具有事半功倍的意義,無論是對于新進(jìn)項目的團(tuán)隊成員還是資深專家,都是非常有幫助的。因此,如何構(gòu)建汽車開發(fā)知識的知識圖譜,方便用戶查找開發(fā)相關(guān)知識以及解決問題是高效造車需要的催化劑。

知識圖譜

知識圖譜實際是一個大規(guī)模的語義網(wǎng)絡(luò)(semantic network),主要由概念實體和語義關(guān)系構(gòu)成,通過把所有不同種類的信息連接在一起而得到的一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力。知識圖譜架構(gòu)如圖1所示。


基于汽車研發(fā)的知識圖譜構(gòu)建方法淺談
圖1 知識圖譜架構(gòu)

知識圖譜涉及多種算法,擁有很多公開模型,但由于缺乏汽車研發(fā)知識相關(guān)知識的公開標(biāo)注數(shù)據(jù)集,所以模型訓(xùn)練困難重重,以至于很難構(gòu)建從結(jié)構(gòu)化/非結(jié)構(gòu)化研發(fā)知識文檔中識別實體和進(jìn)行關(guān)系抽取。命名實體識別和關(guān)系抽取是知識圖譜涉及的兩大關(guān)鍵技術(shù)。早期的命名實體識別主要是基于HMM和CRF計算方法,屬于序列標(biāo)注問題的解決。后來進(jìn)階為LSTM和CRF方法,即采用LSTM作為特征抽取器,再接一個CRF層來作為輸出層。目前流行的方法是BERT,利用預(yù)訓(xùn)練好的BERT模型,再用少量的標(biāo)注數(shù)據(jù)進(jìn)行FINETUNE,來獲得較好的命名實體識別效果。

本知識圖譜構(gòu)建方法通過利用命名實體識別(NER)和關(guān)系抽取(NRE)兩大AI模型,獲取汽車零件與相關(guān)零件開發(fā)知識關(guān)聯(lián)關(guān)系,從而獲得汽車研發(fā)知識圖譜。

NER模型中,采用ERNIE作為輸入詞向量表示,使用多層Transformer Encoder的BERT模型,如圖2所示,通過此模型進(jìn)行命名實體識別。


基于汽車研發(fā)的知識圖譜構(gòu)建方法淺談2
圖2 BERT模型

ERNIE、BERT作為知識增強(qiáng)語義表示模型,相較于one-hot、Word2Vec等靜態(tài)詞向量模型,能夠更好的動態(tài)了解人類語言,因為人類語言是很復(fù)雜,帶有上下文、語境聯(lián)系的。one-hot只能對此進(jìn)行編碼,毫無“相似度”概念,例如“發(fā)動機(jī)罩蓋”和“發(fā)蓋”的距離與“發(fā)動機(jī)罩蓋”和“副車架”的距離是一摸一樣的,Word2Vec將高維的one-hot嵌入到低維空間,使向量更為稠密,雖然可以解決相似度問題,但無法解決一次多義問題,而NER運用反向傳播梯度更新等技術(shù)可以在實體識別任務(wù)中利用其預(yù)訓(xùn)練和下游任務(wù)的微調(diào)機(jī)制得到良好的效果。NER模型中,采用Bi-LSTM增強(qiáng)對詞位置及方向的表示,對預(yù)訓(xùn)練模型的補(bǔ)充,Bi-LSTM由前向LSTM和后向LSTM組合而成,并通過CRF(條件隨機(jī)場)增加對預(yù)測標(biāo)簽的序列約束以保證其合法性。NRE模型中,通過遠(yuǎn)程監(jiān)督學(xué)習(xí),利用知識圖譜中現(xiàn)有關(guān)系及相關(guān)實體在語料中的多個句子訓(xùn)練網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而在新語料中以標(biāo)明實體的情況下,對實體間關(guān)系進(jìn)行推斷,完成預(yù)測。

NRE模型,采用基于注意力機(jī)制的Bi-LSTM模型,能夠自動發(fā)現(xiàn)那些對于分類起到關(guān)鍵作用的詞,從而從每個句子中撲捉到重要的語義信息,完成AI任務(wù)。根據(jù)語料中包含的特定兩個實體的句子樣本以及文檔級別實體信息,來進(jìn)行關(guān)系抽取;例如“發(fā)蓋”和“翼子板”等零件存在“匹配”關(guān)系、和“隔熱墊”等零件存在“卡接”關(guān)系,和“緩沖塊”等零件存在“接觸”關(guān)系,當(dāng)沒有關(guān)系抽取這層定義存在時,“發(fā)蓋”和“翼子板”、“隔熱墊”、緩沖塊”等均作為單獨個體,擁有各自的設(shè)計開發(fā)的知識,而對于用戶來說,在進(jìn)行零件(“發(fā)蓋”)設(shè)計的時候,不單單是考慮單獨零件,還需要考慮與其有“匹配”、“卡接”、“接觸”等關(guān)系的零件對其所帶來的影響或者約束方面的知識,且當(dāng)零件(“發(fā)蓋”)發(fā)生問題的時候,用戶在追溯問題時,也需要考慮與其相關(guān)聯(lián)零件所帶來的影響,這個時候知識圖譜“關(guān)系抽取”所帶來的意義和價值就非常重大了,用戶可以通過一張知識圖譜全局了解到零件及與其關(guān)聯(lián)零件直接的關(guān)系、以及相關(guān)技術(shù)知識。

以上是對汽車研發(fā)知識圖譜構(gòu)建方法的淺談,后續(xù)我們會一直致力于將知識圖譜技術(shù)運用于汽車研發(fā)中,以期加快數(shù)字化轉(zhuǎn)型步伐。 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25