日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

自動(dòng)駕駛下游任務(wù)的數(shù)據(jù)需求估計(jì)

2022-07-18 00:17:21·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“How Much More Data Do I Need? Estimating Requirements for Downstream Tasks“,上傳于2022年7月4日,作者來自Nvidia,多倫多大學(xué)和Vector。給定

arXiv論文“How Much More Data Do I Need? Estimating Requirements for Downstream Tasks“,上傳于2022年7月4日,作者來自Nvidia,多倫多大學(xué)和Vector。

圖片


給定一個(gè)小訓(xùn)練數(shù)據(jù)集和學(xué)習(xí)算法,需要多少數(shù)據(jù)才能達(dá)到目標(biāo)(target)驗(yàn)證或測(cè)試性能?這個(gè)問題在自動(dòng)駕駛應(yīng)用中至關(guān)重要,因?yàn)槭占瘮?shù)據(jù)既昂貴又耗時(shí)。高估或低估數(shù)據(jù)需求會(huì)產(chǎn)生大量成本,本來在預(yù)算中是可以避免的。之前關(guān)于神經(jīng)規(guī)?;桑╪eural scaling laws)的工作表明,冪-定律(power-law)函數(shù)可以擬合驗(yàn)證性能曲線,并將其外推到更大的數(shù)據(jù)集。


不過,這并不能立即轉(zhuǎn)化為在下游模塊估計(jì)所需數(shù)據(jù)集大小以滿足目標(biāo)性能這一更困難的任務(wù)。這項(xiàng)工作考慮一大類計(jì)算機(jī)視覺任務(wù),并系統(tǒng)地研究一系列泛化冪-定律函數(shù)的函數(shù),為更好地估計(jì)數(shù)據(jù)需求。最后,結(jié)合調(diào)整的校正因子和多輪的數(shù)據(jù)收集,顯著提高了數(shù)據(jù)估計(jì)器的性能。這樣可以準(zhǔn)確估計(jì)機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)需求,以節(jié)省開發(fā)時(shí)間和數(shù)據(jù)采集成本。

在部署深度學(xué)習(xí)模型之前,設(shè)計(jì)者可能會(huì)要求模型滿足基線性能,例如像在延遲驗(yàn)證或測(cè)試集的指標(biāo)。一個(gè)例子:在部署到安全-緊要應(yīng)用之前,目標(biāo)檢測(cè)器可能需要最小的平均精度。達(dá)到目標(biāo)(target)性能的最有效方法之一是為給定模型收集更多的訓(xùn)練數(shù)據(jù)。然而,到底還需要多少數(shù)據(jù)?


高估數(shù)據(jù)需求可能會(huì)因不必要的收集、清理和標(biāo)注而產(chǎn)生成本。例如,標(biāo)注分割數(shù)據(jù)集可能每個(gè)目標(biāo)需要時(shí)間15到40秒,這意味著標(biāo)注一個(gè)包含10萬個(gè)圖像的駕駛數(shù)據(jù)集,每個(gè)圖像平均有10輛車,可能需要170到460天的時(shí)間。


另一方面,低估意味著必須在后期收集更多數(shù)據(jù),從而導(dǎo)致未來成本和工作流延遲。例如,在自動(dòng)駕駛汽車應(yīng)用程序中,每個(gè)數(shù)據(jù)收集階段都需要管理一組駕駛員來記錄駕駛視頻。因此,準(zhǔn)確估計(jì)給定任務(wù)需要多少數(shù)據(jù)可以減少深度學(xué)習(xí)工作流中的成本和延遲。


關(guān)于估計(jì)機(jī)器學(xué)習(xí)模型的樣本復(fù)雜度,最近提出的神經(jīng)規(guī)?;杀砻?,根據(jù)冪律泛化隨數(shù)據(jù)集大小規(guī)?;?。Rosenfield等人建議使用小數(shù)據(jù)集性能統(tǒng)計(jì)數(shù)據(jù)擬合冪律函數(shù),推斷大數(shù)據(jù)集的性能。然而,冪律函數(shù)不是唯一可能的選擇。


如圖用冪律函數(shù)估計(jì)ImageNet數(shù)據(jù)集以及幾個(gè)有效的替代方案,說明了圖像分類中的數(shù)據(jù)收集過程。

圖片


當(dāng)使用小數(shù)據(jù)集進(jìn)行外推時(shí),擬合函數(shù)可能以不同方式偏離真值性能曲線。更重要的是,即使是外推精度的一個(gè)小錯(cuò)誤也可能導(dǎo)致高估或低估數(shù)據(jù)需求上的大錯(cuò)誤,帶來巨大的運(yùn)營(yíng)成本。


如圖所示是數(shù)據(jù)收集的流水線:

圖片


其主要基于以下經(jīng)驗(yàn)觀察事實(shí):


【觀察】:直觀地說,隨著收集更多數(shù)據(jù),每個(gè)附加數(shù)據(jù)點(diǎn)的邊際值應(yīng)該降低。


用凹單調(diào)遞增函數(shù)通過回歸建立訓(xùn)練數(shù)據(jù)集大小的模型得分函數(shù) v(n)。在數(shù)據(jù)收集循環(huán)中,首先用可用初始訓(xùn)練數(shù)據(jù)D0和當(dāng)前訓(xùn)練數(shù)據(jù)(加附加數(shù)據(jù))D?估計(jì)附加數(shù)據(jù)n?,并通過擬合得分函數(shù)v(n)的回歸模型v?(n;θ)來估計(jì)相應(yīng)分?jǐn)?shù),其中θ是回歸參數(shù)集。


在學(xué)習(xí)曲線文獻(xiàn)中考慮滿足觀察(見下表)的四個(gè)回歸函數(shù)。

圖片


雖然可以用更復(fù)雜的模型,但這些具有少量參數(shù)的簡(jiǎn)單結(jié)構(gòu)化函數(shù)更容易適應(yīng)較小的學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)集。使用擬合回歸函數(shù),我們求解最小n?。如下算法1總結(jié)了主要步驟:重建回歸數(shù)據(jù),在循環(huán)中擬合參數(shù),最后加點(diǎn)

圖片


現(xiàn)有文獻(xiàn)表明,冪律可以使用數(shù)據(jù)集大小估計(jì)模型精度,但估計(jì)所需數(shù)據(jù)集大小以滿足目標(biāo)分?jǐn)?shù)的實(shí)際應(yīng)用面臨三大挑戰(zhàn):

  • 上面表中的所有函數(shù)都符合模型分?jǐn)?shù)。有了足夠的數(shù)據(jù),表中的所有回歸函數(shù)都可以精確擬合v(n)。當(dāng)|D0| = 600000 圖像進(jìn)行擬合時(shí),每個(gè)連接函數(shù)(虛線)與真值精度的誤差最大為6%。雖然冪律在理論上是有來源的,但在其他函數(shù)中使用是否有經(jīng)驗(yàn)上的正當(dāng)性?

  • 用小數(shù)據(jù)集外推精度是困難的。在數(shù)據(jù)有限的情況下,所有回歸函數(shù)都很差。當(dāng)|D0| = 125000個(gè)圖像進(jìn)行擬合時(shí),每條曲線(虛線)顯著偏離真值(≈ 數(shù)據(jù)集的10%)。此外,一些曲線提供了比冪律更好的擬合。有論文提出數(shù)據(jù)集和模型大小的聯(lián)合回歸;雖然這提高了外推性能,但也需要通過采樣子集和修改不同模型獲得2倍多的數(shù)據(jù)-得分對(duì)集合R。這可能會(huì)增加計(jì)算成本和耗時(shí);因此,重點(diǎn)關(guān)注用少量訓(xùn)練統(tǒng)計(jì)數(shù)據(jù)的簡(jiǎn)單估計(jì)器,即r≤ 10、

  • 精度誤差小,數(shù)據(jù)誤差大。假如在ImageNet建立一個(gè)滿足67%測(cè)試精度的模型,需要90萬個(gè)數(shù)據(jù)點(diǎn)。即使60萬張圖像進(jìn)行函數(shù)擬合,但誤差仍達(dá)到1%到6%之間。錯(cuò)誤估計(jì)12萬到31萬張圖像之間的數(shù)據(jù)需求,收集的數(shù)據(jù)比實(shí)際需要少34%。由于外推誤差的容忍度較低,必須確定估計(jì)數(shù)據(jù)需求的最佳做法。

數(shù)據(jù)和方法

評(píng)估下表中總結(jié)的圖像分類、目標(biāo)檢測(cè)和語義分割任務(wù)的數(shù)據(jù)收集問題。

圖片


分類中,在CIFAR10、CIFAR100和ImageNet數(shù)據(jù)集上訓(xùn)練ResNet,確定滿足目標(biāo)驗(yàn)證集精度所需的數(shù)據(jù)量。用Pascal VOC數(shù)據(jù)集訓(xùn)練SSD300進(jìn)行2D目標(biāo)檢測(cè),其中確定滿足目標(biāo)平均精度(AP)所需的數(shù)據(jù)量。


對(duì)于3D目標(biāo)檢測(cè),在nuScenes訓(xùn)練集的不同子集訓(xùn)練FCOS3D網(wǎng)絡(luò)架構(gòu),遵循nuScenes 3D檢測(cè)評(píng)估協(xié)議的平均精度(mAP)。樣本是在不同場(chǎng)景中隨機(jī)獲得的。用BDD100K探索語義分割,作為一個(gè)大規(guī)模驅(qū)動(dòng)數(shù)據(jù)集,收集了50K個(gè)駕駛數(shù)據(jù),具有各種地理、環(huán)境和天氣條件。對(duì)于多視圖BEV分割,在nuScenes數(shù)據(jù)集上訓(xùn)練“Lift-Splat-ShotLSS)”架構(gòu)。在這里,報(bào)告mIoU結(jié)果。對(duì)每個(gè)任務(wù),確定模型的體系結(jié)構(gòu)和學(xué)習(xí)算法,包括數(shù)據(jù)采樣。


對(duì)每個(gè)數(shù)據(jù)集和任務(wù),有一個(gè)初始數(shù)據(jù)集D0(例如,n0=訓(xùn)練數(shù)據(jù)集的10%)。在分析中,根據(jù)D0 相對(duì)于完整訓(xùn)練數(shù)據(jù)集的相對(duì)大小報(bào)告n0。首先根據(jù)算法1構(gòu)建大小呈線性增長(zhǎng)的r 個(gè)子集創(chuàng)建回歸數(shù)據(jù)集R∈ {0,…,r? 1})。為了確保這個(gè)回歸過程不昂貴,用了一個(gè)小r ≤ 10。


然后,為評(píng)估外推性能和估計(jì)數(shù)據(jù)需求的回歸函數(shù),抽樣較大的子集D1?D2?···,以此增大(例如,整個(gè)訓(xùn)練數(shù)據(jù)集的10%、20%、30%、…、100%)。對(duì)每個(gè)子集,訓(xùn)練模型并評(píng)估分?jǐn)?shù)Vf(Di)。利用這些集合,構(gòu)造分段線性得分函數(shù)v(n),并將其用作真值。


進(jìn)行兩種類型的實(shí)驗(yàn)。在第一個(gè)初步分析中,用R擬合每個(gè)回歸函數(shù),然后對(duì)所有| Di |>|D0 |評(píng)估相對(duì)預(yù)測(cè)Vf(Di)的誤差。該分析揭示每個(gè)回歸函數(shù)在更大數(shù)據(jù)集上推斷模型分?jǐn)?shù)的能力。第二個(gè)主要分析是模擬算法1中的數(shù)據(jù)收集問題,其中用n0=10%的完整訓(xùn)練數(shù)據(jù)集進(jìn)行初始化(對(duì)于VOC,n0=20%),并估計(jì)需要多少數(shù)據(jù)才能獲得不同的目標(biāo)值。在這里,重復(fù)在算法1中數(shù)據(jù)收集階段描述的相同步驟,除了一個(gè)不同之處。在模擬中,不是每一輪采樣更多數(shù)據(jù)并評(píng)估Vf(D0 ∪ D?),而是評(píng)估v(n0+n?)獲得模型分?jǐn)?shù)。該模擬近似于真實(shí)的數(shù)據(jù)收集問題,同時(shí)簡(jiǎn)化了實(shí)驗(yàn),因?yàn)椴槐刂貜?fù)地重訓(xùn)練模型。

分析

下表總結(jié)了在外推較大數(shù)據(jù)集的分?jǐn)?shù)時(shí)每個(gè)回歸函數(shù)的均方根誤差(RMSE)。

圖片


在每個(gè)數(shù)據(jù)集和任務(wù)中,用不同的隨機(jī)種子做三次運(yùn)行,展示了可以用小、中、大數(shù)據(jù)子集進(jìn)行外推。


對(duì)考慮的每個(gè)任務(wù),驗(yàn)證前兩個(gè)挑戰(zhàn)。給定足夠數(shù)量的初始數(shù)據(jù)D0來擬合回歸模型(即當(dāng)n0等于完整數(shù)據(jù)集大小的50%時(shí)),每個(gè)鏈接函數(shù)都實(shí)現(xiàn)了較低的均方根誤差(其范圍為區(qū)間[0,100])。此外,始終存在至少一個(gè)回歸函數(shù),其均方根誤差小于1。


當(dāng)n0等于完整數(shù)據(jù)集大小的10%時(shí),大多數(shù)鏈接函數(shù)產(chǎn)生較高的均方根誤差,這表明當(dāng)擬合在小數(shù)據(jù)集上時(shí),這些函數(shù)容易偏離真實(shí)v(n)。最后,對(duì)于大多數(shù)數(shù)據(jù)集,替代回歸函數(shù)始終產(chǎn)生較低的均方根誤差。特別是,Arctan函數(shù)對(duì)于所有分類數(shù)據(jù)集都是最好的,并且通常冪律均方根誤差減半。這些結(jié)果表明,從小數(shù)據(jù)集外推模型性能是困難的,此外,其他回歸函數(shù)代替冪律可以獲得更準(zhǔn)確的分?jǐn)?shù)回歸。


給定n0和T,通過掃描一系列目標(biāo)來模擬每個(gè)不同回歸函數(shù)的數(shù)據(jù)收集 。如圖所示報(bào)告每個(gè)函數(shù)收集的最終數(shù)據(jù)與根據(jù)真值分?jǐn)?shù)所需最小數(shù)據(jù)的比率,即(n0+n?)/(n0+n?) ,其中n? 滿足v(n0+n)= V的最小值。n的值很容易找到,因?yàn)関(n)是一個(gè)分段線性單調(diào)遞增函數(shù)。


在評(píng)估每個(gè)回歸函數(shù)如何收集數(shù)據(jù)時(shí),需要考慮兩種情況。如果比率小于1,該函數(shù)被描述為分?jǐn)?shù)的樂觀預(yù)測(cè)因子,即低估數(shù)據(jù)的需要。比率小于1意味著,用該回歸函數(shù),在T輪內(nèi)將無法收集足夠的數(shù)據(jù)來滿足V? ,因此無法解決問題。另一方面,如果比率大于1,則該函數(shù)是一個(gè)悲觀預(yù)測(cè)因子,即高估數(shù)據(jù)的需要。理想的數(shù)據(jù)收集策略將實(shí)現(xiàn)大于1的最小比率。實(shí)驗(yàn)表明,通常情況下,Arctan函數(shù)是最悲觀的,并且通常達(dá)到最大的比率。


驗(yàn)證第三個(gè)挑戰(zhàn),指出低回歸誤差不一定轉(zhuǎn)化為更好的數(shù)據(jù)收集。在CIFAR100、ImageNet和VOC上,使用Arctan可能會(huì)收集到比實(shí)際需要多5倍的數(shù)據(jù);在nuScenes上進(jìn)行BEV分割可能會(huì)導(dǎo)致10倍以上的結(jié)果?;叵胍幌拢贗mageNet上,需要大約90萬張圖像才能達(dá)到目標(biāo)V? = 67%。以n0=10%的數(shù)據(jù)初始化時(shí),Arctan將導(dǎo)致僅在第一輪中就收集約450萬張圖像,而所有其他回歸函數(shù)的比率約等于1。


雖然上表表明回歸中Arctan實(shí)現(xiàn)了所有函數(shù)中最低的RMSE(3.19),但以此估計(jì)數(shù)據(jù)需求將導(dǎo)致不必要的昂貴數(shù)據(jù)收集。這表明,在確定良好的數(shù)據(jù)收集策略時(shí),簡(jiǎn)單分析回歸誤差是不夠的,需要模擬方法。


對(duì)于大多數(shù)回歸函數(shù),收集足夠的數(shù)據(jù)需要多輪外推。當(dāng)T=1時(shí),冪律、對(duì)數(shù)和代數(shù)根函數(shù)低估了除VOC之外數(shù)據(jù)集和任務(wù)的數(shù)據(jù)需求。然而,當(dāng)T=5時(shí),對(duì)除CIFAR10之外的數(shù)據(jù)集,所有函數(shù)在整個(gè)V*范圍內(nèi)的比率都大于0.9。也就是說,始終可以使用任何回歸函數(shù)獲得至少90%的所需數(shù)據(jù)。


最終,即使T=5,當(dāng)V? 較大(例如,在ImageNet上,當(dāng)V* ≥ 62%時(shí)冪律、對(duì)數(shù)和代數(shù)根函數(shù)的比值小于1)。從操作角度來看,雖然這些方法不會(huì)造成巨大的成本,但也無法解決問題。

有助于達(dá)到目標(biāo)的修正系數(shù)

從算法1中,在每一輪數(shù)據(jù)收集中,根據(jù)v?(n0+n?;θ)最小化 n??) ≥ V?。理想情況下,希望最小化真實(shí)數(shù)據(jù)需求,即求解n? 滿足v(n0+n)?) = V?。然而,模擬表明,大多數(shù)回歸函數(shù)都是最優(yōu)的,并且低估數(shù)據(jù)需要。


實(shí)際上,一種糾正少于滿足V? 收集數(shù)據(jù)的簡(jiǎn)單方法,是施加校正因子τ≥ 0,估計(jì)滿足“修正”更高目標(biāo)V? + τ所需的數(shù)據(jù)。因此,固定一個(gè)常數(shù)τ并修改算法1,以便在每一輪滿足v?(n0 +n?;θ?)≥V? +τ的最小化n?。


為了確定該校正因子應(yīng)該有多大,可視為一個(gè)超參進(jìn)行擬合。例如,假設(shè)有完整的CIFAR10數(shù)據(jù)集,并且想要為未來的數(shù)據(jù)集構(gòu)建一個(gè)T-輪收集策略。首先,用每個(gè)回歸函數(shù)模擬τ=0的CIFAR10數(shù)據(jù)收集,獲得如圖所示的結(jié)果。

圖片


然后增加τ,直到該函數(shù)的整個(gè)比率曲線大于1。換句話說,求解最小τ,對(duì)于CIFAR10(對(duì)于給定的固定T和函數(shù)),這樣數(shù)據(jù)收集策略將收集剛好足夠的數(shù)據(jù),滿足所有目標(biāo)值V? 。然后,用該擬合τ作為未來數(shù)據(jù)集的校正因子。


將校正因子與多輪數(shù)據(jù)收集相結(jié)合,可以持續(xù)收集略高于最低數(shù)據(jù)要求的數(shù)據(jù)。如表所示比較了對(duì)每個(gè)數(shù)據(jù)集在所有V? 取最小比率的每個(gè)回歸函數(shù)采用τ的效果。用CIFAR10數(shù)據(jù)集對(duì)T和回歸函數(shù)的每個(gè)設(shè)置擬合τ。

圖片


在不進(jìn)行校正的情況下,冪律、對(duì)數(shù)和代數(shù)根函數(shù)對(duì)于除VOC之外的每個(gè)數(shù)據(jù)集都實(shí)現(xiàn)了小于1的比率。采用τ這些函數(shù)幾乎總是能實(shí)現(xiàn)1到2之間的比率。此外,對(duì)于每個(gè)數(shù)據(jù)集,當(dāng)T=5時(shí),這3個(gè)回歸函數(shù)達(dá)到各自的最低比率(高于1)。如圖用τ在所有V*上對(duì)于T=5的每個(gè)數(shù)據(jù)集進(jìn)一步給出模擬結(jié)果。

圖片


每個(gè)數(shù)據(jù)集的所有V*,冪律、對(duì)數(shù)和代數(shù)根函數(shù)的比率在1.03到2.5之間。此外,對(duì)于所有數(shù)據(jù)集,沒有一致最佳的回歸函數(shù)。例如,代數(shù)根函數(shù)在VOC中占主導(dǎo)地位,但當(dāng)V? 很大冪律對(duì) inuScenes BEV segmentation 特別有效。然而,回想一下,Arctan自然高估了數(shù)據(jù)需求,因此不會(huì)從校正中受益。


結(jié)論是,糾正三種樂觀估計(jì)量(冪律、對(duì)數(shù)或代數(shù)根)中的任何一種,并五輪收集數(shù)據(jù),就足以在滿足預(yù)期目標(biāo)的情況下近似地最小化收集總數(shù)據(jù)量。

數(shù)據(jù)要求的經(jīng)驗(yàn)界

如果校正因子擬合不佳或收集輪數(shù)限制比較小,可能仍然會(huì)低估或高估數(shù)據(jù)要求。從上表中可以看出,在T=1的nuScenes分割中,不帶τ的冪律可以估計(jì)出58%的所需數(shù)據(jù),而使用τ可以估計(jì)出比所需數(shù)據(jù)多28倍的數(shù)據(jù)。


在某些應(yīng)用程序中,建??赡苓€需要根據(jù)經(jīng)驗(yàn)估計(jì)應(yīng)該馬上收集的數(shù)據(jù)量?,F(xiàn)在考慮這樣一個(gè)問題,n0個(gè)數(shù)據(jù)點(diǎn)還剩下T=1輪;在單輪或多輪的最后一輪中,我們必須達(dá)到數(shù)據(jù)收集目標(biāo)。因此,試圖獲得關(guān)于需要多少數(shù)據(jù)的最壞和最佳情況估計(jì)(即上限和下限)。所有不同的回歸函數(shù)都會(huì)產(chǎn)生一系列預(yù)測(cè)。然后,最大預(yù)測(cè)是最壞情況估計(jì),最小預(yù)測(cè)是最佳情況估計(jì)。


對(duì)于每個(gè)數(shù)據(jù)集,設(shè)置T=1,并掃描n0和V?,用8個(gè)回歸函數(shù)估計(jì)數(shù)據(jù)需求。如圖所示:頂行顯示,對(duì)于每個(gè)n0和V*的實(shí)例頻率,其中最樂觀和最悲觀的回歸函數(shù)約束真實(shí)數(shù)據(jù)需求。底行進(jìn)一步顯示,這些上下限的均值。

圖片


對(duì)于圖像分類,在80%以上時(shí)間估計(jì)器限制真實(shí)要求。這一趨勢(shì)也適用于VOC,對(duì)于n0≥ 數(shù)據(jù)集的30%,在80%以上時(shí)間內(nèi)限制需求。由于BDD100K和nuScenes BEV分割是更具挑戰(zhàn)性的數(shù)據(jù)集,限制數(shù)據(jù)需求的概率有時(shí)會(huì)降低。


由于在nuScenes上訓(xùn)練3-D目標(biāo)檢測(cè)器比其他任務(wù)在計(jì)算上要昂貴得多,這里只報(bào)告n0=10%、20%、50%的值。在這里,估計(jì)器的范圍用區(qū)間[0.56, 31.1]、[0.76, 40.8]、[0.56, 26.9]中的比率分別限制了88%、91%和83%的真實(shí)數(shù)據(jù)需求。


盡管如此,結(jié)果表明,如果給一個(gè)具有大型初始數(shù)據(jù)集的單輪,能夠準(zhǔn)確估計(jì)數(shù)據(jù)需求的上下限。此外,即使有多輪收集數(shù)據(jù),在最后一輪中,應(yīng)該能夠獲得需求的上下界限。在實(shí)際應(yīng)用中,這些界限可以引導(dǎo)建模得到樂觀或悲觀的選擇,例如,如果實(shí)際訓(xùn)練和部署模型的deadline很嚴(yán)格不能錯(cuò)過。

  • 不同技術(shù)估計(jì)的數(shù)據(jù),要么遠(yuǎn)遠(yuǎn)多于所需數(shù)據(jù),要么遠(yuǎn)遠(yuǎn)少于所需數(shù)據(jù)。使用多輪數(shù)據(jù)收集和低估的技術(shù)可以收集高達(dá)90%的真實(shí)所需數(shù)據(jù)量。

  • 通過之前任務(wù)的模擬,可以確定哪些方法低估數(shù)據(jù)要求,并學(xué)習(xí)修正系數(shù)來解決這一不足。使用校正因子并收集多達(dá)五輪數(shù)據(jù),最多可以收集達(dá)到任何期望性能所需最小數(shù)據(jù)量的1-2倍。

  • 只剩下一輪數(shù)據(jù)收集,可以用所有回歸函數(shù)來獲得通常真實(shí)數(shù)據(jù)需求的限制區(qū)間。這些界限可以指導(dǎo)建模根據(jù)實(shí)際需求或多或少地收集數(shù)據(jù)。 

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25