日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊

2021-03-22 11:34:40·  來源:佐思汽車研究  作者:周彥武  
 
今年1月初,瑞典初創(chuàng)公司Terranet宣布斬獲了來自汽車產(chǎn)業(yè)巨頭戴姆勒梅賽德斯奔馳的Voxelflow原型采購訂單,訂單價值31000歐元。這筆采購訂單是Terranet和戴姆勒
今年1月初,瑞典初創(chuàng)公司Terranet宣布斬獲了來自汽車產(chǎn)業(yè)巨頭戴姆勒梅賽德斯奔馳的Voxelflow原型采購訂單,訂單價值31000歐元。這筆采購訂單是Terranet和戴姆勒于2020年10月簽署的諒解備忘錄(MoU)的延續(xù),雙方的諒解備忘錄涉及ADAS和防撞解決方案的原型驗證、產(chǎn)品開發(fā)和產(chǎn)業(yè)化。下一步是將VoxelFlow集成到奔馳的測試車輛中。

實際Terranet的核心是基于事件的圖像傳感器(Event-based Camera Sensor,或Event-driven Camera Sensor,下文簡稱事件相機)。事件相機主要有兩種,DVS(Dynamic Vision Sensor)以及DAVIS(Dynamic and ActivePixel Vision Sensor)。DVS是普通的事件相機,而DAVIS就是在回傳事件的同時還可以回傳灰度圖。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊

事件相機的靈感來自人眼和動物的視覺,也有人稱之為硅視網(wǎng)膜。生物的視覺只針對有變化的區(qū)域才敏感,比如眼前突然掉下來一個物體,那么人眼會忽視背景,會將注意力集中在這個物體上,事件相機就是捕捉事件的產(chǎn)生或者說變化的產(chǎn)生。在傳統(tǒng)的視覺領(lǐng)域,相機傳回的信息是同步的,所謂同步,就是在某一時刻t,相機會進行曝光,把這一時刻所有的像素填在一個矩陣里回傳,一張照片就誕生了。一張照片上所有的像素都對應(yīng)著同一時刻。至于視頻,不過是很多幀的圖片,相鄰圖片間的時間間隔可大可小,這便是我們常說的幀率(frame rate),也稱為時延(time latency)。事件相機類似于人類的大腦和眼睛,跳過不相關(guān)的背景,直接感知一個場景的核心,創(chuàng)建純事件而非數(shù)據(jù)。

實際上自動駕駛領(lǐng)域99%的視覺數(shù)據(jù)在AI處理中是無用的背景。這就好像檢測鬼探頭,變化的區(qū)域是很小一部分,但傳統(tǒng)的視覺處理仍然要處理99%的沒有出現(xiàn)變化的背景區(qū)域,這不僅浪費了大量的算力,也浪費了時間。亦或者像在沙礫里有顆鉆石,AI芯片和傳統(tǒng)相機需要識別每一顆沙粒,篩選出鉆石,但人類只需要看一眼就能檢測到鉆石,AI芯片和傳統(tǒng)相機耗費的時間是人類的100倍或1000倍。

事件相機的工作機制是,當某個像素所處位置的亮度發(fā)生變化達到一定閾值時,相機就會回傳一個上述格式的事件,其中前兩項為事件的像素坐標,第三項為事件發(fā)生的時間戳,最后一項取值為極性(polarity)0、1(或者-1、1),代表亮度是由低到高還是由高到低,也常被稱作Positive or Negative Event,又被稱作On or Off Event。

就這樣,在整個相機視野內(nèi),只要有一個像素值變化,就會回傳一個事件,這些所有的事件都是異步發(fā)生的(再小的時間間隔也不可能完全同時),所以事件的時間戳均不相同,由于回傳簡單,所以和傳統(tǒng)相機相比,它具有低時延的特性,可以捕獲很短時間間隔內(nèi)的像素變化。延遲是微秒級的。

除了冗余信息減少和幾乎沒有延遲的優(yōu)點外,事件相機的優(yōu)點還有由于低時延,在拍攝高速物體時傳統(tǒng)相機會發(fā)生模糊(由于會有一段曝光時間),而事件相機幾乎不會。再就是真正的高動態(tài)范圍,由于事件相機的特質(zhì),在光強較強或較弱的環(huán)境下(高曝光和低曝光),傳統(tǒng)相機均會“失明”,但像素變化仍然存在,所以事件相機仍能看清眼前的東西。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊1
傳統(tǒng)相機

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊2
事件相機

傳統(tǒng)相機的動態(tài)范圍是無法做寬的,因為放大器會有線性范圍,照顧了低照度就無法適應(yīng)強光,反過來適應(yīng)了強光就無法顧及低照度。

事件相機在目標追蹤、動作識別等領(lǐng)域具備壓倒性優(yōu)勢,尤其適合自動駕駛領(lǐng)域。

空中一個球的軌跡


自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊3

扔一個球,看看兩種相機的軌跡記錄


自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊4

傳統(tǒng)相機的幀記錄

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊5

事件相機的軌跡記錄

事件相機的出現(xiàn)對高算力AI芯片是致命打擊,它只需要傳統(tǒng)高算力AI芯片1%甚至0.1%的算力就可完美工作,功耗是毫瓦級。并且它是基于流水線時間戳方式處理數(shù)據(jù),而不是一幀幀地平面處理各個像素。傳統(tǒng)卷積算法可能無用,AI芯片最擅長的乘積累加運算可能沒有用武之地。

像特斯拉目前最頂配的FSD,8個攝像頭的分辨率只有130萬像素,就已經(jīng)需要144TOPS的算力,而目前英偉達的自動駕駛試驗車型用的攝像頭已經(jīng)是800萬像素,因此1000TOPS的算力是必須的,如此大的算力不僅帶來高成本,還有高熱量。除非能挖礦,否則是太浪費了。即便如此,高算力和安全也沒有關(guān)系,攝像頭的幀率一般是30Hz,注定了至少有33毫秒的延遲,這個哪怕你的算力達到1億TOPS也于事無補。為了準確檢測行人并預(yù)測其路徑,需要多幀處理,至少是10幀,也就是330毫秒。這意味著相關(guān)系統(tǒng)可能需要數(shù)百毫秒才能實現(xiàn)有效探測,而對于一輛以60公里每小時行進中的車輛來說,330毫秒的時間就能行駛5.61米。而事件相機理論上不超過1毫秒。

視頻即靜止圖像序列,計算機視覺一直朝著“視頻攝像頭+計算機+算法=機器視覺”的主流方向,卻很少人質(zhì)疑用圖像序列(視頻)表達視覺信息的合理性,更少人質(zhì)疑是否憑借該計算機視覺算法就能實現(xiàn)真正機器視覺。人類視覺系統(tǒng)具有低冗余、低功耗、高動態(tài)及魯棒性強等優(yōu)勢,可以高效地自適應(yīng)處理動態(tài)與靜態(tài)信息,且具有極強地小樣本泛化能力和全面的復(fù)雜場景感知能力。1990 年Mead 首次在《Proceedings of IEEE》上提出神經(jīng)形態(tài)(Neuromorphic)的概念,利用大規(guī)模集成電路來模擬生物神經(jīng)系統(tǒng)。1991 年 Mahowald 和Mead在《Scientific American》的封面刊登了一只運動的貓,標志了第一款硅視網(wǎng)膜的誕生,其模擬了視網(wǎng)膜上視錐細胞、水平細胞以及雙極細胞的生物功能,正式點燃了神經(jīng)形態(tài)視覺傳感器這一新興領(lǐng)域。Mahowald解釋稱,“模仿人類視網(wǎng)膜,這種‘硅視網(wǎng)膜’通過從圖像中減去平均強度水平,只報告空間和時間變化,從而減少了帶寬。”1993 年 Mahowald團隊為了解決集成電路的稠密三維連線的問題,提出了一種新型的集成電路通信協(xié)議,即地址事件協(xié)議(Address-Event Representation, AER ),實現(xiàn)了事件的異步讀出。2003年Culurciello 等人設(shè)計了一種 AER 方式的積分發(fā)放的脈沖模型,將像素光強編碼為頻率或脈沖間隔,稱為章魚視網(wǎng)膜(Octopus Retina)。2005年 Delbruck 團隊研制出動態(tài)視覺傳感器(Dynamic Vision Sensor, DVS),以時空異步稀疏的事件表示像素光強變化,其商業(yè)化具有里程牌的意義。然而,DVS無法捕捉自然場景的精細紋理圖像。2008 年 Posh 等人提出了一種基于異步視覺的圖像傳感器(Asynchronous Time-based Image Sensor, ATIS),引入了基于事件觸發(fā)的光強測量電路來重構(gòu)變化處的像素灰度。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊6
分型視覺采樣

硅視網(wǎng)膜這種靈感推動了動態(tài)視覺傳感器背后的概念,使蘇黎世聯(lián)邦理工學(xué)院成為該技術(shù)的創(chuàng)新中心,并孕育了像Prophesee、Insightness等無數(shù)初創(chuàng)企業(yè)。瑞士創(chuàng)新公司iniVation也是其中之一。百度則資助了CelePixel,后來韋爾股份收購了Celepixel。還有中科創(chuàng)星和聯(lián)想創(chuàng)投聯(lián)合投資的銳思智芯。

目前主要是索尼和三星在激烈競爭。初創(chuàng)公司不得不和這些傳感器巨頭合作,如Prophesee和索尼,iniVation和三星。2019年12月,索尼悄悄收購了總部位于蘇黎世的Insightness公司。三星為其移動和平板電腦應(yīng)用的動態(tài)視覺傳感器(Dynamic Vision Sensor, DVS)技術(shù)提交了商標申請。

Prophesee和索尼是目前最接近商業(yè)化的。2020年2月,總部位于巴黎的Prophesee公司在完成2800萬美元額外融資后不久,和索尼一起在美國舊金山舉行的國際固態(tài)電路會議(International Solid-State Circuits Conference)上聯(lián)合發(fā)布了這個130萬像素的事件相機圖像傳感器。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊7

新款基于事件的圖像傳感器分辨率為1280 x 720像素,填充系數(shù)為77%,300MEPS版本的功耗為73mW。當基于幀的圖像傳感器根據(jù)幀速率以固定的間隔輸出整幅圖像時,基于事件的圖像傳感器使用“行選擇仲裁電路”異步選擇像素數(shù)據(jù)。通過在亮度發(fā)生變化的像素地址中添加1μs精度的時間信息,以確保具有高時間分辨率的事件數(shù)據(jù)讀出。通過有效壓縮事件數(shù)據(jù),即每個事件的亮度變化極性、時間和x/y坐標信息,實現(xiàn)了1.066Geps的高輸出事件發(fā)生率。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊8

事件相機圖像傳感器并不復(fù)雜,每個像素都包含一個檢測亮度變化的電路。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊9

理念非常簡潔,但是要商業(yè)化就要注意控制成本,對芯片來說,面積越大意味著成本越高,檢測亮度變化的電路增加了面積,這意味著事件相機的像素會隨著分辨率的增加而成本大增。索尼的BSI技術(shù)是關(guān)鍵,將背照式CMOS圖像傳感器部分(頂部芯片)和邏輯電路(底部芯片)堆疊時,通過連接的銅焊盤提供電連續(xù)性的技術(shù)。與硅通孔(Through Silicon Via, TSV)布線相比,通過在像素區(qū)域周圍穿透電極來實現(xiàn)連接,與之相比,此方法在設(shè)計上具有更大的自由度,提高了生產(chǎn)率,縮小了尺寸并提高了性能。索尼于2016年12月在舊金山舉行的國際電子設(shè)備會議(IEDM)上宣布了這項技術(shù)。也靠這項技術(shù)穩(wěn)居圖像傳感器霸主位置。

通過在像素芯片(頂部)只放置背光像素和N型MOS晶體管的一部分,將光孔進光率提高到77%,從而實現(xiàn)業(yè)界最高的124dB HDR性能(或更高)。索尼在CMOS圖像傳感器開發(fā)過程中經(jīng)年累積的高靈敏度/低噪聲技術(shù)使得事件檢測能在微光條件下(40mlx)進行。像素芯片(頂部)和邏輯芯片(底部)結(jié)合信號處理電路,檢測亮度變化基于異步增量調(diào)制法分別排列。兩個單獨芯片的每個像素都使用Cu-Cu連接以堆疊配置進行電連接。除了業(yè)界較小的4.86μm像素尺寸,該傳感器通過采用精細的40nm邏輯工藝實現(xiàn)高密度集成,為1/2英寸,1280x720高清分辨率。

事件相機仍然無法取代激光雷達或雙目系統(tǒng),因為它無法提供深度信息,因此事件相機必須配合激光雷達才能實現(xiàn)完美的3D感知。這就回到了文章開頭,Terranet的秘密武器就是事件相機,Terranet用事件相機增強激光雷達的性能,這就是Terranet開發(fā)的所謂VoxelFlow,Terranet認為現(xiàn)在很多環(huán)境感知系統(tǒng)所使用的攝像頭和傳感器并不比蘋果iPhone的標準配置強多少,而iPhone的FaceID每幀也只能產(chǎn)生33000個光點。Terranet公司目前正在開發(fā)的基于事件的傳感技術(shù)VoxelFlow,能夠憑借很低的算力,以極低的延時對動態(tài)移動物體進行分類。VoxelFlow技術(shù)每秒可以生成1000萬個3D點云,提供沒有運動模糊的快速邊緣檢測。基于事件的傳感器的超低延時性能,能夠確保車輛及時應(yīng)對“鬼探頭”問題,采取緊急制動、加速或繞過突然出現(xiàn)在車輛后方的物體以避免碰撞事故。Voxelflow是一種新型的計算機視覺解決方案,它由三個基于事件的攝像頭和一個激光掃描儀組成。Voxelflow用主動照明技術(shù)通過3D三角測量,創(chuàng)建帶時間戳的點云(x、y、z)光柵圖像。

自動駕駛感知領(lǐng)域的革命:拋棄幀的事件相機將給高算力AI芯片沉重打擊10

現(xiàn)在的AI本質(zhì)上還是一種蠻力計算,依靠海量數(shù)據(jù)和海量算力,對數(shù)據(jù)集和算力的需求不斷增加,這顯然離初衷越來越遠,文明的每一次進步都帶來效率的極大提高,唯有效率的提高才是進步,而依賴海量數(shù)據(jù)和海量算力的AI則完全相反,效率越來越低,事件相機才是正確的方向。 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25