首頁 > 汽車技術 > 正文

技術揭秘 | 如何構建車載語音識別系統(tǒng)的魯棒性？

2023-12-19 11:43:46· 來源：騰訊云智能

首先需要明白，什么叫魯棒性？

魯棒性，其實是英文robust的音譯，表示強壯、健壯的意思。而車載語音識別系統(tǒng)的魯棒性就是指在面對車載環(huán)境中的高噪聲、重口音、復雜場景和長尾POI輸入時，也能保持較好的識別率。

隨著語音交互在車載領域的覆蓋率不斷提升，大部分的用戶都體驗過車載語音助手帶來的輕松駕車體驗。

車載語音助手通過整合前端降噪、語音識別、語義理解、人聲合成等多項AI能力，讀懂用戶駕駛時的服務需求。因此咱們只需要動動口，就能操控車載語音助手完成諸如空調控制、語音導航、開天窗、播音樂等一系列動作。

盡管車載語音助手使用起來很簡單，但實際上，其系統(tǒng)內部的強魯棒性無時無刻不在面臨著困難挑戰(zhàn)，而其中最主要的四大挑戰(zhàn)則是：噪音、用戶口音、海量POI、場景化。

01 環(huán)境噪音挑戰(zhàn)

大家有沒有試過在電風扇旁與朋友打電話？扇葉轉動發(fā)出的噪音往往會令通話質量變得很差，導致朋友無法聽清我們的聲音。在車機交互場景中也是如此：如果在車內、車窗旁的環(huán)境噪音過大，車載語音助手的識別功能就會被干擾，無法達到最優(yōu)交互。

而在車機交互系統(tǒng)中，常見的噪音包括了路噪、風噪、空調和音響等不同類型。

02 用戶口音挑戰(zhàn)

當一個湖南人對著車載語音助手說“我要導航去胡建”，和一個福建人對車載語音助手說“我要導航到福南”，二者所面臨的結果可能是一樣的：車載語音助手無法進行正確的語音識別。

很明顯，在整個語音識別體系中，比噪音更影響語音識別功能的因素，則是用戶的口音和方言。

03 海量POI挑戰(zhàn)

同時，海量的POI（point of information,信息點）也是干擾語音識別的“絆腳石”。舉個簡單例子，當你告知車載語音助手，需要導航到棠下，然而，廣州天河區(qū)和白云區(qū)都有一個棠下。更甚，當告知其hongyuan酒店的時候，將會識別出云南大理（宏緣酒店）、廣東揭陽（鴻源酒店）和廣東東莞（宏遠酒店）。

大量的POI，令車載語音助手無法迅速地進行語音識別的準確判斷。

04 場景化挑戰(zhàn)

不同場景化中用戶的個性化需求，也作為影響語音識別功能的因素之一。當你告知車載語音助手一些較為生僻的特殊詞匯，這時候它是無法識別的，就像讓爸媽聽專業(yè)的學術報告般，對特殊領域感到一頭霧水。

對于語音識別系統(tǒng)也是一樣，要求它適應各種領域的特殊用詞是存在一定難度的。這便要求車載語音助手必須具備一定的靈活性和可配置性。

在語音識別的整個行業(yè)中，對構建其系統(tǒng)強魯棒性的四個挑戰(zhàn)是普遍存在的。當語音識別將人類的聲音信號轉化為文字或者指令時，用戶口音、環(huán)境噪聲、海量POI以及場景化語音均構成影響識別系統(tǒng)決策的變量，這便尤其考驗語音識別系統(tǒng)的基礎穩(wěn)定性。

為此，騰訊云小微團隊面對四大影響因素的難題挑戰(zhàn)，不斷對系統(tǒng)內部的各項AI技術進行迭代優(yōu)化，目前給出了一份廣獲行業(yè)認可的優(yōu)質解決方案。

解決方案1——針對環(huán)境噪音挑戰(zhàn)

面對噪音帶來的挑戰(zhàn)，騰訊云小微團隊采取了與內部、外部供應商合作的開發(fā)模式，從車內語音交互場景出發(fā)，共同打造了騰訊車載聲學前端方案，對噪聲進行抑制和回聲消除。

除了可以有效抑制環(huán)境噪音外，總的來看，騰訊車載聲學前端方案還具有以下幾個優(yōu)勢：

第一，軟件和硬件方案齊備。其中的軟件前端方案由騰訊云小微團隊與AILab聯(lián)合打造，全鏈條均由騰訊自有技術構成。

第二，適用面廣?？芍С侄喾Nmic數(shù)量和布局，可覆蓋前裝和后裝、高端和低端等多種車型。

第三，功能完備。可支持AEC、NS、DOA和多音區(qū)能力。

第四，接入迅速。騰訊云小微團隊制定了聲學前端準入的標準化測試流程，加速與第三方聲學前端適配過程。

解決方案2——針對用戶口音挑戰(zhàn)

面對各地區(qū)用戶口音的挑戰(zhàn)，騰訊云小微團隊采用了兩種方案。

其一，采用了分區(qū)域聲學模型，將全國劃分為多個不同的區(qū)域，基于base模型進行finetune得到區(qū)域模型。

其二，騰訊云小微團隊采取了地域向量，根據(jù)地域的劃分，引入Area vector的向量，這個向量會輸入到網(wǎng)絡中，在網(wǎng)絡訓練時便將地域信息引入利用，以此幫助模型更好地進行分類應用。

同時，客戶端上的GPS、語音請求與IP信息被解析為地域信息，為兩種方案的模型提供解碼方向。

關于這兩種方案，分地域聲學模型的訓練和維護相對而言較為復雜，但它屬于一個解耦的系統(tǒng)，方便針對某一個地域的模型進行優(yōu)化；而地域向量聲學模型則相對簡單，但存在較大的耦合性。從最終效果上看，分地域聲學模型的效果稍微更勝一籌，而整體上，兩種方案都能獲得5%-10%的性能提升。

解決方案3——針對海量POI挑戰(zhàn)

面對海量POI的挑戰(zhàn)，騰訊云小微團隊引入了兩個技術：地域ngram聯(lián)合rescore技術和長尾POI后處理能力。

例如hongyuan酒店分別在云南大理（宏緣酒店）、廣東揭陽（鴻源酒店）和廣東東莞（宏遠酒店）存在，地域ngram聯(lián)合rescore技術便可以幫助車載語音助手識別該酒店是位于云南還是廣東，而長尾POI后處理能力則是進行了更細膩的劃分，協(xié)助識別是揭陽還是東莞。

利用海量訓練文本和千萬級POI數(shù)據(jù)訓練ngram語言模型，將該模型分為低階ngram和高階ngram兩部分。低階ngram與聲學模型/詞典通過構圖生成WFST解碼網(wǎng)絡，除此之外，高階ngram也會執(zhí)行on the fly rescore的操作，進一步地提升識別效果，完成一遍解碼。在一遍解碼獲得nbest的識別結果后，還會利用神經(jīng)網(wǎng)絡語言進行二遍rescore，而不同地域ngram的語言模型則在這個模塊中聯(lián)合rescore進行POI識別。地域ngram聯(lián)合rescore技術能令POI識別率獲得10%的性能提升。

關于長尾POI后處理技術，包含兩個大模塊，一是云小微語義團隊提供的NLU模塊，負責領域分類與實體提?。欢球v訊地圖提供的QC模塊，負責模糊音修復、hitpoi和檢索。在搜索hongyuan酒店時，NLU模塊會將hongyuan酒店作為實體，與用戶所在地一同輸送至QC模塊，進行模糊音修復和檢索，得到最終結果——hongyuan酒店+揭陽市=鴻源酒店（揭陽）。至此，長尾POI后處理技術將POI識別率進行了10%的性能提升。

解決方案4——針對場景化挑戰(zhàn)

面對不同場景化的挑戰(zhàn)，騰訊云小微團隊針對特殊詞匯、個性化句式、個性化領域的典型場景化需求，分別提出了三種技術方案——Hotfix增強技術、Grammar增強技術和文本自學習增強技術。

三種增強技術方案滿足了不同場景的產(chǎn)品需求，大幅提升場景化的識別結果，可以提供更好的語音交互體驗。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：新能源汽車高溫高寒試驗驗證思路及要點
上一篇：基于特征魯棒性增強的多攝像頭下車輛識別方法

點贊 0 反對 0 舉報 0 收藏 0 評論 0

魯棒性汽車

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 汽車電子設計：魯棒性設計_應力分析的應用	• 汽車電子設計：魯棒性設計_應力比
• 汽車電子設計：魯棒性設計_環(huán)境和使用因素	• 汽車電子設計：魯棒性設計_應力類型
• 汽車電子設計：魯棒性設計_應力與強度分析	• 汽車電子設計：魯棒性設計_應力與強度概念
• 中國汽研2024年成果發(fā)布-AI魯棒性場景庫賦能自動駕駛新時	• 基于ODYSSEE 的機器學習方法在汽車約束系統(tǒng)魯棒性分析中的
• GaN HEMT可靠性：浪涌應力下級聯(lián)GaN HEMT魯棒性評估	• 基于特征魯棒性增強的多攝像頭下車輛識別方法

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

技術揭秘 | 如何構建車載語音識別系統(tǒng)的魯棒性？

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

技術揭秘 | 如何構建車載語音識別系統(tǒng)的魯棒性？

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工

技術揭秘 | 如何構建車載語音識別系統(tǒng)的魯棒性？