日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

機器學習最全知識點匯總

2022-03-06 23:59:43·  來源:機器學習算法與Python實戰(zhàn)  
 

有些應用中已知樣本服從的概率分布,但是要估計分布函數(shù)的參數(shù)

圖片

,確定這些參數(shù)常用的一種方法是最大似然估計。
最大似然估計構(gòu)造一個似然函數(shù),通過讓似然函數(shù)最大化,求解出

圖片

。最大似然估計的直觀解釋是,尋求一組參數(shù),使得給定的樣本集出現(xiàn)的概率最大。
假設樣本服從的概率密度函數(shù)為

圖片

,其中X為隨機變量,

圖片

為要估計的參數(shù)。給定一組樣本xi,i =1,...,l,它們都服從這種分布,并且相互獨立。最大似然估計構(gòu)造如下似然函數(shù):

圖片


其中xi是已知量,這是一個關于

圖片

的函數(shù),我們要讓該函數(shù)的值最大化,這樣做的依據(jù)是這組樣本發(fā)生了,因此應該最大化它們發(fā)生的概率,即似然函數(shù)。這就是求解如下最優(yōu)化問題:

圖片


乘積求導不易處理,因此我們對該函數(shù)取對數(shù),得到對數(shù)似然函數(shù):

圖片

最后要求解的問題為:

圖片


最大似然估計在機器學習中的典型應用包括logistic回歸,貝葉斯分類器,隱馬爾科夫模型等。 

基本概念


1.有監(jiān)督學習與無監(jiān)督學習


根據(jù)樣本數(shù)據(jù)是否帶有標簽值,可以將機器學習算法分成有監(jiān)督學習和無監(jiān)督學習兩類。有監(jiān)督學習的樣本數(shù)據(jù)帶有標簽值,它從訓練樣本中學習得到一個模型,然后用這個模型對新的樣本進行預測推斷。有監(jiān)督學習的典型代表是分類問題和回歸問題。
無監(jiān)督學習對沒有標簽的樣本進行分析,發(fā)現(xiàn)樣本集的結(jié)構(gòu)或者分布規(guī)律。無監(jiān)督學習的典型代表是聚類,表示學習,和數(shù)據(jù)降維,它們處理的樣本都不帶有標簽值。 

2.分類問題與回歸問題


在有監(jiān)督學習中,如果樣本的標簽是整數(shù),則預測函數(shù)是一個向量到整數(shù)的映射,這稱為分類問題。如果標簽值是連續(xù)實數(shù),則稱為回歸問題,此時預測函數(shù)是向量到實數(shù)的映射。 

3.生成模型與判別模型


分類算法可以分成判別模型和生成模型。給定特征向量x與標簽值y,生成模型對聯(lián)合概率p(x,y)建模,判別模型對條件概率p(y|x)進行建模。另外,不使用概率模型的分類器也被歸類為判別模型,它直接得到預測函數(shù)而不關心樣本的概率分布:

圖片

判別模型直接得到預測函數(shù)f(x),或者直接計算概率值p(y|x),比如SVM和logistic回歸,softmax回歸,判別模型只關心決策面,而不管樣本的概率分布的密度。
生成模型計算p(x, y)或者p(x|y) ,通俗來說,生成模型假設每個類的樣本服從某種概率分布,對這個概率分布進行建模。
機器學習中常見的生成模型有貝葉斯分類器,高斯混合模型,隱馬爾可夫模型,受限玻爾茲曼機,生成對抗網(wǎng)絡等。典型的判別模型有決策樹,kNN算法,人工神經(jīng)網(wǎng)絡,支持向量機,logistic回歸,AdaBoost算法等。 

4.交叉驗證


交叉驗證(cross validation)是一種統(tǒng)計準確率的技術。k折交叉驗證將樣本隨機、均勻的分成k份,輪流用其中的k-1份訓練模型,1份用于測試模型的準確率,用k個準確率的均值作為最終的準確率。 

5.過擬合與欠擬合


欠擬合也稱為欠學習,直觀表現(xiàn)是訓練得到的模型在訓練集上表現(xiàn)差,沒有學到數(shù)據(jù)的規(guī)律。引起欠擬合的原因有模型本身過于簡單,例如數(shù)據(jù)本身是非線性的但使用了線性模型;特征數(shù)太少無法正確的建立映射關系。
過擬合也稱為過學習,直觀表現(xiàn)是在訓練集上表現(xiàn)好,但在測試集上表現(xiàn)不好,推廣泛化性能差。過擬合產(chǎn)生的根本原因是訓練數(shù)據(jù)包含抽樣誤差,在訓練時模型將抽樣誤差也進行了擬合。所謂抽樣誤差,是指抽樣得到的樣本集和整體數(shù)據(jù)集之間的偏差。引起過擬合的可能原因有:
模型本身過于復雜,擬合了訓練樣本集中的噪聲。此時需要選用更簡單的模型,或者對模型進行裁剪。訓練樣本太少或者缺乏代表性。此時需要增加樣本數(shù),或者增加樣本的多樣性。訓練樣本噪聲的干擾,導致模型擬合了這些噪聲,這時需要剔除噪聲數(shù)據(jù)或者改用對噪聲不敏感的模型。 

6.偏差與方差分解


模型的泛化誤差可以分解成偏差和方差。偏差是模型本身導致的誤差,即錯誤的模型假設所導致的誤差,它是模型的預測值的數(shù)學期望和真實值之間的差距。
方差是由于對訓練樣本集的小波動敏感而導致的誤差。它可以理解為模型預測值的變化范圍,即模型預測值的波動程度。
模型的總體誤差可以分解為偏差的平方與方差之和:

圖片

如果模型過于簡單,一般會有大的偏差和小的方差;反之如果模型復雜則會有大的方差但偏差很小。 

7.正則化


為了防止過擬合,可以為損失函數(shù)加上一個懲罰項,對復雜的模型進行懲罰,強制讓模型的參數(shù)值盡可能小以使得模型更簡單,加入懲罰項之后損失函數(shù)為:

圖片

正則化被廣泛應用于各種機器學習算法,如嶺回歸,LASSO回歸,logistic回歸,神經(jīng)網(wǎng)絡等。除了直接加上正則化項之外,還有其他強制讓模型變簡單的方法,如決策樹的剪枝算法,神經(jīng)網(wǎng)絡訓練中的dropout技術,提前終止技術等。 

8.維數(shù)災難


為了提高算法的精度,會使用越來越多的特征。當特征向量維數(shù)不高時,增加特征確實可以帶來精度上的提升;但是當特征向量的維數(shù)增加到一定值之后,繼續(xù)增加特征反而會導致精度的下降,這一問題稱為維數(shù)災難。 

貝葉斯分類器




貝葉斯分類器將樣本判定為后驗概率最大的類,它直接用貝葉斯公式解決分類問題。假設樣本的特征向量為x,類別標簽為y,根據(jù)貝葉斯公式,樣本屬于每個類的條件概率(后驗概率)為:

圖片


分母p(x)對所有類都是相同的,分類的規(guī)則是將樣本歸到后驗概率最大的那個類,不需要計算準確的概率值,只需要知道屬于哪個類的概率最大即可,這樣可以忽略掉分母。分類器的判別函數(shù)為:

圖片


在實現(xiàn)貝葉斯分類器時,需要知道每個類的條件概率分布p(x|y)即先驗概率。一般假設樣本服從正態(tài)分布。訓練時確定先驗概率分布的參數(shù),一般用最大似然估計,即最大化對數(shù)似然函數(shù)。
如果假設特征向量的各個分量之間相互獨立,則稱為樸素貝葉斯分類器,此時的分類判別函數(shù)為:

圖片


實現(xiàn)時可以分為特征分量是離散變量和連續(xù)變量兩種情況。貝葉斯分分類器是一種生成模型,可以處理多分類問題,是一種非線性模型。 


決策樹

決策樹是一種基于規(guī)則的方法,它用一組嵌套的規(guī)則進行預測。在樹的每個決策節(jié)點處,根據(jù)判斷結(jié)果進入一個分支,反復執(zhí)行這種操作直到到達葉子節(jié)點,得到預測結(jié)果。這些規(guī)則通過訓練得到,而不是人工制定的。
決策樹既可以用于分類問題,也可以用于回歸問題。分類樹的映射函數(shù)是多維空間的分段線性劃分,用平行于各坐標軸的超平面對空間進行切分;回歸樹的映射函數(shù)是分段常數(shù)函數(shù)。決策樹是分段線性函數(shù)而不是線性函數(shù)。只要劃分的足夠細,分段常數(shù)函數(shù)可以逼近閉區(qū)間上任意函數(shù)到任意指定精度,因此決策樹在理論上可以對任意復雜度的數(shù)據(jù)進行擬合。對于分類問題,如果決策樹深度夠大,它可以將訓練樣本集的所有樣本正確分類。
決策樹的訓練算法是一個遞歸的過程,首先創(chuàng)建根節(jié)點,然后遞歸的建立左子樹和右子樹。如果練樣本集為D,訓練算法的流程為:

1.用樣本集D建立根節(jié)點,找到一個判定規(guī)則,將樣本集分裂成D1和D2兩部分,同時為根節(jié)點設置判定規(guī)則。

2.用樣本集D1遞歸建立左子樹。

3.用樣本集D2遞歸建立右子樹。

4.如果不能再進行分裂,則把節(jié)點標記為葉子節(jié)點,同時為它賦值。

對于分類樹,如果采用Gini系數(shù)作為度量準則,決策樹在訓練時尋找最佳分裂的依據(jù)為讓Gini不純度最小化,這等價于讓下面的值最大化:

圖片

尋找最佳分裂時需要計算用每個閾值對樣本集進行分裂后的純度值,尋找該值最大時對應的分裂,它就是最佳分裂。如果是數(shù)值型特征,對于每個特征將l個訓練樣本按照該特征的值從小到大排序,假設排序后的值為:

圖片

接下來從x1開始,依次用每個xi作為閾值,將樣本分成左右兩部分,計算上面的純度值,該值最大的那個分裂閾值就是此特征的最佳分裂閾值。在計算出每個特征的最佳分裂閾值和上面的純度值后,比較所有這些分裂的純度值大小,該值最大的分裂為所有特征的最佳分裂。
決策樹可以處理屬性缺失問題,采用的方法是使用替代分裂規(guī)則。為了防止過擬合,可以對樹進行剪枝,讓模型變得更簡單。如果想要更詳細的了解決策樹的原理,請閱讀SIGAI之前的公眾號文章“理解決策樹”,在SIGAI云端實驗室有決策樹訓練算法的原理實驗,此功能免費,網(wǎng)址為:www.sigai.cn
決策樹是一種判別模型,既支持分類問題,也支持回歸問題,是一種非線性模型,它支持多分類問題。 

隨機森林




隨機森林是一種集成學習算法,是Bagging算法的具體實現(xiàn)。集成學習是機器學習中的一種思想,而不是某一具體算法,它通過多個模型的組合形成一個精度更高的模型,參與組合的模型稱為弱學習器。在預測時使用這些弱學習器模型聯(lián)合進行預測,訓練時需要依次訓練出這些弱學習器。
隨機森林用有放回抽樣(Bootstrap抽樣)構(gòu)成出的樣本集訓練多棵決策樹,訓練決策樹的每個節(jié)點時只使用了隨機抽樣的部分特征。預測時,對于分類問題,一個測試樣本會送到每一棵決策樹中進行預測,然后投票,得票最多的類為最終分類結(jié)果。對于回歸問題,隨機森林的預測輸出是所有決策樹輸出的均值。
假設有n個訓練樣本。訓練每一棵樹時,從樣本集中有放回的抽取n個樣本,每個樣本可能會被抽中多次,也可能一次都沒抽中。如果樣本量很大,在整個抽樣過程中每個樣本有0.368的概率不被抽中。由于樣本集中各個樣本是相互獨立的,在整個抽樣中所有樣本大約有36.8%沒有被抽中。這部分樣本稱為包外(Out Of Bag,簡稱OOB)數(shù)據(jù)。
用這個抽樣的樣本集訓練一棵決策樹,訓練時,每次尋找最佳分裂時,還要對特征向量的分量采樣,即只考慮部分特征分量。由于使用了隨機抽樣,隨機森林泛化性能一般比較好,可以有效的降低模型的方差。
如果想更詳細的了解隨機森林的原理,請閱讀SIGAI之前的公眾號文章“隨機森林概述”。隨機森林是一種判別模型,既支持分類問題,也支持回歸問題,并且支持多分類問題,這是一種非線性模型。 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25