日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

技術揭秘 | 如何構建車載語音識別系統(tǒng)的魯棒性?

2023-12-19 11:43:46·  來源:騰訊云智能  
 

首先需要明白,什么叫魯棒性?

魯棒性,其實是英文robust的音譯,表示強壯、健壯的意思。而車載語音識別系統(tǒng)的魯棒性就是指在面對車載環(huán)境中的高噪聲、重口音、復雜場景和長尾POI輸入時,也能保持較好的識別率。

隨著語音交互在車載領域的覆蓋率不斷提升,大部分的用戶都體驗過車載語音助手帶來的輕松駕車體驗。

車載語音助手通過整合前端降噪、語音識別、語義理解、人聲合成等多項AI能力,讀懂用戶駕駛時的服務需求。因此咱們只需要動動口,就能操控車載語音助手完成諸如空調控制、語音導航、開天窗、播音樂等一系列動作。

盡管車載語音助手使用起來很簡單,但實際上,其系統(tǒng)內部的強魯棒性無時無刻不在面臨著困難挑戰(zhàn),而其中最主要的四大挑戰(zhàn)則是:噪音、用戶口音、海量POI、場景化。


圖片


01 環(huán)境噪音挑戰(zhàn)

大家有沒有試過在電風扇旁與朋友打電話?扇葉轉動發(fā)出的噪音往往會令通話質量變得很差,導致朋友無法聽清我們的聲音。在車機交互場景中也是如此:如果在車內、車窗旁的環(huán)境噪音過大,車載語音助手的識別功能就會被干擾,無法達到最優(yōu)交互。

而在車機交互系統(tǒng)中,常見的噪音包括了路噪、風噪、空調和音響等不同類型。


02 用戶口音挑戰(zhàn)

當一個湖南人對著車載語音助手說“我要導航去胡建”,和一個福建人對車載語音助手說“我要導航到福南”,二者所面臨的結果可能是一樣的:車載語音助手無法進行正確的語音識別。

很明顯,在整個語音識別體系中,比噪音更影響語音識別功能的因素,則是用戶的口音和方言。


03 海量POI挑戰(zhàn)

同時,海量的POI(point of information,信息點)也是干擾語音識別的“絆腳石”。舉個簡單例子,當你告知車載語音助手,需要導航到棠下,然而,廣州天河區(qū)和白云區(qū)都有一個棠下。更甚,當告知其hongyuan酒店的時候,將會識別出云南大理(宏緣酒店)、廣東揭陽(鴻源酒店)和廣東東莞(宏遠酒店)。

大量的POI,令車載語音助手無法迅速地進行語音識別的準確判斷。


04 場景化挑戰(zhàn)

不同場景化中用戶的個性化需求,也作為影響語音識別功能的因素之一。當你告知車載語音助手一些較為生僻的特殊詞匯,這時候它是無法識別的,就像讓爸媽聽專業(yè)的學術報告般,對特殊領域感到一頭霧水。

對于語音識別系統(tǒng)也是一樣,要求它適應各種領域的特殊用詞是存在一定難度的。這便要求車載語音助手必須具備一定的靈活性和可配置性。


在語音識別的整個行業(yè)中,對構建其系統(tǒng)強魯棒性的四個挑戰(zhàn)是普遍存在的。當語音識別將人類的聲音信號轉化為文字或者指令時,用戶口音、環(huán)境噪聲、海量POI以及場景化語音均構成影響識別系統(tǒng)決策的變量,這便尤其考驗語音識別系統(tǒng)的基礎穩(wěn)定性。

為此,騰訊云小微團隊面對四大影響因素的難題挑戰(zhàn),不斷對系統(tǒng)內部的各項AI技術進行迭代優(yōu)化,目前給出了一份廣獲行業(yè)認可的優(yōu)質解決方案。


解決方案1——針對環(huán)境噪音挑戰(zhàn)

面對噪音帶來的挑戰(zhàn),騰訊云小微團隊采取了與內部、外部供應商合作的開發(fā)模式,從車內語音交互場景出發(fā),共同打造了騰訊車載聲學前端方案,對噪聲進行抑制和回聲消除。


圖片


除了可以有效抑制環(huán)境噪音外,總的來看,騰訊車載聲學前端方案還具有以下幾個優(yōu)勢:

第一,軟件和硬件方案齊備。其中的軟件前端方案由騰訊云小微團隊與AILab聯(lián)合打造,全鏈條均由騰訊自有技術構成。

第二,適用面廣??芍С侄喾Nmic數(shù)量和布局,可覆蓋前裝和后裝、高端和低端等多種車型。

第三,功能完備。可支持AEC、NS、DOA和多音區(qū)能力。

第四,接入迅速。騰訊云小微團隊制定了聲學前端準入的標準化測試流程,加速與第三方聲學前端適配過程。


解決方案2——針對用戶口音挑戰(zhàn)

面對各地區(qū)用戶口音的挑戰(zhàn),騰訊云小微團隊采用了兩種方案。

其一,采用了分區(qū)域聲學模型,將全國劃分為多個不同的區(qū)域,基于base模型進行finetune得到區(qū)域模型。


圖片


其二,騰訊云小微團隊采取了地域向量,根據(jù)地域的劃分,引入Area vector的向量,這個向量會輸入到網(wǎng)絡中,在網(wǎng)絡訓練時便將地域信息引入利用,以此幫助模型更好地進行分類應用。


圖片


同時,客戶端上的GPS、語音請求與IP信息被解析為地域信息,為兩種方案的模型提供解碼方向。

關于這兩種方案,分地域聲學模型的訓練和維護相對而言較為復雜,但它屬于一個解耦的系統(tǒng),方便針對某一個地域的模型進行優(yōu)化;而地域向量聲學模型則相對簡單,但存在較大的耦合性。從最終效果上看,分地域聲學模型的效果稍微更勝一籌,而整體上,兩種方案都能獲得5%-10%的性能提升。


解決方案3——針對海量POI挑戰(zhàn)

面對海量POI的挑戰(zhàn),騰訊云小微團隊引入了兩個技術:地域ngram聯(lián)合rescore技術和長尾POI后處理能力。

例如hongyuan酒店分別在云南大理(宏緣酒店)、廣東揭陽(鴻源酒店)和廣東東莞(宏遠酒店)存在,地域ngram聯(lián)合rescore技術便可以幫助車載語音助手識別該酒店是位于云南還是廣東,而長尾POI后處理能力則是進行了更細膩的劃分,協(xié)助識別是揭陽還是東莞。

利用海量訓練文本和千萬級POI數(shù)據(jù)訓練ngram語言模型,將該模型分為低階ngram和高階ngram兩部分。低階ngram與聲學模型/詞典通過構圖生成WFST解碼網(wǎng)絡,除此之外,高階ngram也會執(zhí)行on the fly rescore的操作,進一步地提升識別效果,完成一遍解碼。在一遍解碼獲得nbest的識別結果后,還會利用神經(jīng)網(wǎng)絡語言進行二遍rescore,而不同地域ngram的語言模型則在這個模塊中聯(lián)合rescore進行POI識別。地域ngram聯(lián)合rescore技術能令POI識別率獲得10%的性能提升。


圖片


關于長尾POI后處理技術,包含兩個大模塊,一是云小微語義團隊提供的NLU模塊,負責領域分類與實體提?。欢球v訊地圖提供的QC模塊,負責模糊音修復、hitpoi和檢索。在搜索hongyuan酒店時,NLU模塊會將hongyuan酒店作為實體,與用戶所在地一同輸送至QC模塊,進行模糊音修復和檢索,得到最終結果——hongyuan酒店+揭陽市=鴻源酒店(揭陽)。至此,長尾POI后處理技術將POI識別率進行了10%的性能提升。


圖片


解決方案4——針對場景化挑戰(zhàn)

面對不同場景化的挑戰(zhàn),騰訊云小微團隊針對特殊詞匯、個性化句式、個性化領域的典型場景化需求,分別提出了三種技術方案——Hotfix增強技術、Grammar增強技術和文本自學習增強技術。

三種增強技術方案滿足了不同場景的產(chǎn)品需求,大幅提升場景化的識別結果,可以提供更好的語音交互體驗。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25