日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于動(dòng)態(tài)表示和決策門的深度神經(jīng)網(wǎng)絡(luò)有效推理

2019-04-11 00:06:38·  來源:同濟(jì)智能汽車研究所  
 
作者:MohammadSaeedShafiee*編譯:同濟(jì)智能汽車研究所編輯:啜小雪摘要:在神經(jīng)網(wǎng)絡(luò)的深度和其計(jì)算成本之間難以權(quán)衡的問題使得當(dāng)前很難將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于許
作者:Mohammad Saeed Shafiee* 
編譯:同濟(jì)智能汽車研究所
編輯:啜小雪
 
摘要:在神經(jīng)網(wǎng)絡(luò)的深度和其計(jì)算成本之間難以權(quán)衡的問題使得當(dāng)前很難將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于許多工業(yè)應(yīng)用,尤其是在計(jì)算能力有限的情況下。在這篇文章中,我們受到這樣的想法啟發(fā):雖然需要更深的嵌入來區(qū)分復(fù)雜的樣本,但是通過較淺的嵌入可以很好地區(qū)分大批量的樣本。在本研究中,我們介紹了決策門(d-gate)的概念,訓(xùn)練這些模塊來決定是否需要將樣本投影到更深的嵌入中,或者是否可以在決策門進(jìn)行早期預(yù)測,從而能夠計(jì)算不同深度的動(dòng)態(tài)表示。所提出的決策門模塊可以與任何深度神經(jīng)網(wǎng)絡(luò)集成,并且在保持建模精度的同時(shí)降低深度神經(jīng)網(wǎng)絡(luò)的平均計(jì)算成本。實(shí)驗(yàn)結(jié)果表明,在 CIFAR10 數(shù)據(jù)集上訓(xùn)練后,利用提出的決策門模塊,ResNet-101 加速約 38%,F(xiàn)LOPS 減少約 39%,DenseNet-201 加速約 46%,F(xiàn)LOPS 減少約 36%,精度僅下降約 2%。
 
一、介紹
 
之前的研究[16]已經(jīng)表明,更深層的網(wǎng)絡(luò)架構(gòu)通常會帶來更好的建模性能;然而,更深層的網(wǎng)絡(luò)架構(gòu)也會帶來一些問題。除了變得更容易過擬合和更難訓(xùn)練之外,深度和計(jì)算成本之間的權(quán)衡使得許多工業(yè)應(yīng)用很難采用更深的架構(gòu)。
 
He 等人[7]通過引入殘差學(xué)習(xí)的概念,解決了深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的退化問題(例如梯度消失),其中學(xué)習(xí)是基于殘差映射,而不是直接基于未參照映射。緊隨其后是,Xie 等人[19]利用殘差塊結(jié)構(gòu)中的初始思想(即分裂-變換-合并策略)來提供更好的子空間建模,同時(shí)解決退化問題,從而得到具有改進(jìn)建模精度的 ResNext 體系結(jié)構(gòu)。為了解決計(jì)算成本問題,人們提出了各種各樣的方法,包括:精度降低[10]、模型壓縮[6]、師生策略[8]和進(jìn)化算法[13,14]。
 
最近,條件計(jì)算[1,4,12,18,2]和早期預(yù)測[17]方法已經(jīng)被提出來處理這個(gè)問題,這些方法涉及網(wǎng)絡(luò)內(nèi)不同模塊的動(dòng)態(tài)執(zhí)行。條件計(jì)算方法在很大程度上受到以下思想的推動(dòng):殘余網(wǎng)絡(luò)可被視為較淺網(wǎng)絡(luò)的集合。因此,這些方法利用跳躍連接來確定哪些剩余模塊需要執(zhí)行,其中大多數(shù)利用了增強(qiáng)學(xué)習(xí)。
 
在本研究中,我們主要探究早期預(yù)測這個(gè)想法,但取而代之的是從軟邊際支持向量機(jī)[3]理論中得到?jīng)Q策啟示。特別地,我們引入決策門的概念,訓(xùn)練模塊以決定是否需要將樣本投影到更深的嵌入中,或是否可以在決策門處進(jìn)行早期預(yù)測,從而能夠在不同深度上進(jìn)行動(dòng)態(tài)表示的條件計(jì)算。所提出的決策門模塊可以與任何深層神經(jīng)網(wǎng)絡(luò)集成,而不需要從頭訓(xùn)練網(wǎng)絡(luò),從而在保持模型精度的同時(shí)降低了深層神經(jīng)網(wǎng)絡(luò)的平均計(jì)算復(fù)雜度。
圖1 決策門被直接集成到深層神經(jīng)網(wǎng)絡(luò)中,并且被訓(xùn)練來預(yù)測決策是在決策門處做出還是需要投影到深層嵌入中。

二、方法論
 
與淺層結(jié)構(gòu)相比,深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠提供更好的數(shù)據(jù)子空間嵌入,從而能夠更好地區(qū)分?jǐn)?shù)據(jù)空間,進(jìn)而得到更好的建模精度。受軟邊際支持向量機(jī)[3]理論的啟發(fā),我們提出了一個(gè)假設(shè),盡管對于在較低的網(wǎng)絡(luò)層的并且位于決策邊界的上的樣本使用更深的嵌入式子空間是必要的,但是他們實(shí)際上對于那些在淺層嵌入式空間并且已經(jīng)遠(yuǎn)離決策邊界的點(diǎn)已經(jīng)不重要了。因此,用于確定樣本與網(wǎng)絡(luò)下層中的決策邊界之間的距離的有效機(jī)制將使得能夠在不將樣本投影到更深的嵌入空間中,對這些樣本執(zhí)行早期預(yù)測成為可能。這種方法將大大降低預(yù)測的平均計(jì)算成本。然而,設(shè)計(jì)一種有效的方法來確定樣本是否為邊界樣本是一個(gè)具有挑戰(zhàn)性的問題。
 
這里,我們將早期預(yù)測問題描述為風(fēng)險(xiǎn)最小化問題,并引入一組直接集成到深層神經(jīng)網(wǎng)絡(luò)(參見圖1)的單層前向傳播網(wǎng)絡(luò)(我們稱為決策門)。決策門模塊的目標(biāo)不僅是確定樣本是否需要投影到深嵌入空間中,而且還最小化早期錯(cuò)誤分類的風(fēng)險(xiǎn)。具體而言,我們訓(xùn)練決策門模塊,該決策門模塊通過鉸鏈損耗[5]集成到深度神經(jīng)網(wǎng)絡(luò)中,該鉸鏈損耗[5]使得在較低嵌入中早期誤分類的風(fēng)險(xiǎn)最小化,同時(shí)決定樣本是否是邊界樣本: 
其中,y 是輸入數(shù)據(jù)x的真值標(biāo)簽, 是通過具有權(quán)重 w 和偏置 b 集合的決策門模塊預(yù)測的類標(biāo)簽。權(quán)重 w 的集合具有 fxc 的維數(shù),其中,f 表示向決策門模塊的輸入特征的數(shù)量,c 表示分類任務(wù)中的類標(biāo)簽的數(shù)量。該決策門模塊提供了重要的優(yōu)勢,其中的結(jié)果 wTx-b 提供了樣本到嵌入空間中每個(gè)類標(biāo)簽的相應(yīng)決策邊界的距離。以這種方式訓(xùn)練決策門模塊提供了線性分類器,其中不需要更深嵌入以進(jìn)行區(qū)分的樣本是那些與決策邊界具有較大距離(即為正號)的樣本。值得注意的是,決策門模塊的單層特性旨在考慮效率。
決策門模塊是通過用于訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)來訓(xùn)練的,每個(gè)決策門模塊的目標(biāo)是最小化訓(xùn)練數(shù)據(jù)的分類誤差。因此,訓(xùn)練數(shù)據(jù)上的損失函數(shù)可以表述為:
其中 Y 表示所有訓(xùn)練數(shù)據(jù)的地面實(shí)況標(biāo)記集。關(guān)于 ,最有趣的是  是 w 和 b 的凸函數(shù),因此可以。通過梯度下降優(yōu)化。因此,這里可以采用傳統(tǒng)的梯度下降,其中沿著從函數(shù)的次梯度[15]中選擇的向量的方向采取步驟以找到優(yōu)化值。因此,決策門可以在小批量訓(xùn)練框架下進(jìn)行訓(xùn)練,這使得它在具有大數(shù)據(jù)集的深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的應(yīng)用非常方便。
在本質(zhì)上,所提出的決策門模塊可以基于 wTx-b 計(jì)算每個(gè)樣本到?jīng)Q策邊界的距離;計(jì)算出的距離與各決策門決策閾值t比較以確定是否需要對樣品在決策門進(jìn)行早期預(yù)測,或者將樣本移動(dòng)到深度神經(jīng)網(wǎng)絡(luò)的更深的網(wǎng)絡(luò)階層來提高預(yù)測的效果。遠(yuǎn)離決策邊界的樣本導(dǎo)致在 wTx-b 中輸出較大值;因此,如果樣本的決策門距離滿足決策門決策閾值,則對應(yīng)于最大距離的類被分配為該早期預(yù)測步驟中樣本的預(yù)測類標(biāo)簽。
圖2:精確度與 FLOP 的數(shù)量:通過建議的鉸鏈損失訓(xùn)練有決策門的網(wǎng)絡(luò)的性能與通過傳統(tǒng)的交叉熵?fù)p失方法訓(xùn)練的決策門進(jìn)行比較??梢钥闯?,通過鉸鏈損耗訓(xùn)練的決策門比使用交叉熵?fù)p耗時(shí)具有更高的計(jì)算效率和更高的精度
 
表1:ReNET-101 和 DeNeNET-201 的實(shí)驗(yàn)結(jié)果與不同的決策門配置。將每個(gè)配置的觸發(fā)器的平均數(shù)和精度與原始網(wǎng)絡(luò)的平均數(shù)進(jìn)行比較。決策門(T1,T2)表示具有兩個(gè)決策門模塊的網(wǎng)絡(luò),分別配置有決策閾值 T1 和 T2。

三、結(jié)果與討論
在 CIFAR10 數(shù)據(jù)集上,使用兩種不同的網(wǎng)絡(luò)體系結(jié)構(gòu)(ResNet101[7]和DenseNet201[9])來檢驗(yàn)所提出的決策門模塊的有效性。該決策門模塊的一個(gè)主要優(yōu)點(diǎn)是它能夠通過調(diào)整 d 門決策閾值,進(jìn)而精確控制建模精度和計(jì)算成本之間的平衡。通過降低決策門決策閾值,增加進(jìn)行早期預(yù)測的樣本數(shù),從而大大降低網(wǎng)絡(luò)的預(yù)測平均計(jì)算成本。在這項(xiàng)研究中,我們結(jié)合兩 Resnet-101 決策門模塊(在第一和第二主塊)和 Densenet-201(后的第一和第二的致密塊),并探討不同的決策門配置。在 Pytorch 框架中實(shí)現(xiàn)網(wǎng)絡(luò),并且基于單個(gè) Nvidia TITAN XP GPU 報(bào)告預(yù)測速度。
 
從表 1 中可以觀察到,通過集成具有(t1,t2)=(2.5,2.5)的決策閾值的兩個(gè)決策門模塊,ResNet 網(wǎng)絡(luò)的計(jì)算成本可減少 67MFLOPS,同時(shí)保持與原始 ResNet-101 相同的精度水平。決策門模塊的集成可以使 ResNet-101 網(wǎng)絡(luò)的計(jì)算成本降低 39%(即降低1.95GFLOPS),與原始的 ResNet-101(在決策門 1 和決策門 2 中具有距離閾值(t1,t2)=(1.0,2.0))相比,準(zhǔn)確度降低 1.7%,導(dǎo)致 38% 的加速。對 DenseNet-201 的試驗(yàn)表明,在精度只有 2% 下降的情況下,將 FLOP 的數(shù)量減少 970MFLOP(36%)是可能的,從而加速 46%。此外,在精度 3% 的范圍內(nèi),使用決策門模塊可以達(dá)到與原來的 DenseNet-201 相比 2.3 倍的加速?;趯?shí)驗(yàn)結(jié)果,提出的決策門模塊導(dǎo)致預(yù)測速度顯著增加,使得它非常適合于工業(yè)應(yīng)用。
 
除了提出的決策門模塊外,本文的主要貢獻(xiàn)之一是引入了用于訓(xùn)練決策門模塊的鉸鏈損耗。過去的研究[11]認(rèn)為交叉熵在決策邊界和訓(xùn)練數(shù)據(jù)之間產(chǎn)生的差距很小。因此,由于 Softmax 輸出中沒有有價(jià)值的信息,所以很難信任 Softmax 層的置信值來決定樣本。為了驗(yàn)證所提出的決策門中鉸鏈損耗與交叉熵?fù)p耗相比的有效性,進(jìn)行了額外的對比實(shí)驗(yàn)。更具體地,兩個(gè)決策門以與報(bào)告相同的方式添加到 ResNET101。然而,不是訓(xùn)練使用建議的鉸鏈損耗,而是通過交叉熵?fù)p失來訓(xùn)練決策門。這使我們能夠比較鉸鏈損耗與交叉熵?fù)p失對決策門功能的影響。
 
圖 2 顯示了基于所提議的鉸鏈損失法訓(xùn)練決策門的網(wǎng)絡(luò)的精確度與 FLOP 的數(shù)量,與使用常規(guī)交叉熵訓(xùn)練過程訓(xùn)練相比??梢杂^察到,在網(wǎng)絡(luò)中具有相同數(shù)量的 FLOP 的情況下,基于所提出的鉸鏈損耗訓(xùn)練決策門的網(wǎng)絡(luò)與通過交叉熵?fù)p耗訓(xùn)練的網(wǎng)絡(luò)相比,提供了更高的建模精度。當(dāng)判決門被配置成使得網(wǎng)絡(luò)使用較少數(shù)量的觸發(fā)器時(shí),精度間隙呈指數(shù)增加。這說明了上述使用交叉熵?fù)p失和決策邊界的問題。

參考文獻(xiàn)
[1] Emmanuel Bengio, Pierre-Luc Bacon, Joelle Pineau, and Doina Precup.Conditional computation in neural networks for faster models. arXiv preprintarXiv:1511.06297, 2015.
[2] Tolga Bolukbasi, Joseph Wang, Ofer Dekel, and Venkatesh Saligrama.Adaptive neural networks for ef?cient inference. arXivpreprint arXiv:1702.07811, 2017.
[3] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machinelearning, 20(3):273–297, 1995.
[4] Ludovic Denoyer and PatrickGallinari. Deep sequential neural network.arXiv preprint arXiv:1410.0510, 2014.
[5] Ürün Dogan, Tobias Glasmachers, and Christian Igel. A uni?ed viewon multi-class support vector classi?cation. Journal ofMachine Learning Research, 17(45):1–32, 2016.
[6] Song Han, Huizi Mao, and William J Dally. Deep compression:Compressing deep neural networks with pruning, trained quantization and huffmancoding. arXiv preprint arXiv:1510.00149, 2015.
[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 770–778, 2016.
[8] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling theknowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
[9] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian QWeinberger. Densely connected convolutional networks. In CVPR, volume 1, page3, 2017.
[10] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang,Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and trainingof neural networks for ef?cientintegerarithmetic-only inference. arXiv preprint arXiv:1712.05877, 2017.
[11] Xuezhi Liang, Xiaobo Wang, Zhen Lei, Shengcai Liao, and Stan Z Li.Soft-margin softmax for deep classi?cation. In InternationalConference on Neural Information Processing, pages 413–421. Springer, 2017.
[12] Lanlan Liu and Jia Deng. Dynamic deep neural networks: Optimizingaccuracy-ef?ciency trade-offs by selective execution. arXivpreprint arXiv:1701.00299, 2017.
[13] M. Sha?ee, A. Mishra, and A. Wong. Deep learning withdarwin: Evolutionary synthesis of deep neural networks. arXiv:1606.04393, 2016.
[14] M. Sha?ee and A. Wong. Evolutionary synthesis of deepneural networks via synaptic cluster-driven genetic encoding. In NIPS Workshop,2016.
[15] Shai Shalev-Shwartz, Yoram Singer, Nathan Srebro, and Andrew Cotter.Pegasos: Primal estimated subgradient solver for svm. Mathematical programming,127(1):3–30, 2011.
[16] Karen Simonyan and Andrew Zisserman. Very deep convolutional networksfor large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[17] Surat Teerapittayanon, Bradley McDanel, and HT Kung. Branchynet: Fastinference via early exiting from deep neural networks. In Pattern Recognition(ICPR), 2016 23rd International Conference on, pages 2464–2469. IEEE, 2016.
[18] Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, Steven Rennie, Larry SDavis, Kristen Grauman, and Rogerio Feris. Blockdrop: Dynamic inference pathsin residual networks. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 8817–8826, 2018.
[19] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He.Aggregated residual transformations for deep neural networks. In ComputerVision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages5987–5995. IEEE, 2017. 
分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25