日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

機(jī)器學(xué)習(xí)最全知識(shí)點(diǎn)匯總

2022-03-06 23:59:43·  來(lái)源:機(jī)器學(xué)習(xí)算法與Python實(shí)戰(zhàn)  
 
1.列舉常用的最優(yōu)化方法梯度下降法牛頓法,擬牛頓法坐標(biāo)下降法梯度下降法的改進(jìn)型如AdaDelta,AdaGrad,Adam,NAG等。2.梯度下降法的關(guān)鍵點(diǎn)梯度下降法沿著梯度的

1.列舉常用的最優(yōu)化方法


梯度下降法

牛頓法,

擬牛頓法

坐標(biāo)下降法

梯度下降法的改進(jìn)型如AdaDelta,AdaGrad,Adam,NAG等。 


2.梯度下降法的關(guān)鍵點(diǎn)


梯度下降法沿著梯度的反方向進(jìn)行搜索,利用了函數(shù)的一階導(dǎo)數(shù)信息。梯度下降法的迭代公式為:

圖片


根據(jù)函數(shù)的一階泰勒展開(kāi),在負(fù)梯度方向,函數(shù)值是下降的。只要學(xué)習(xí)率設(shè)置的足夠小,并且沒(méi)有到達(dá)梯度為0的點(diǎn)處,每次迭代時(shí)函數(shù)值一定會(huì)下降。需要設(shè)置學(xué)習(xí)率為一個(gè)非常小的正數(shù)的原因是要保證迭代之后的xk+1位于迭代之前的值xk的鄰域內(nèi),從而可以忽略泰勒展開(kāi)中的高次項(xiàng),保證迭代時(shí)函數(shù)值下降。
梯度下降法只能保證找到梯度為0的點(diǎn),不能保證找到極小值點(diǎn)。迭代終止的判定依據(jù)是梯度值充分接近于0,或者達(dá)到最大指定迭代次數(shù)。
梯度下降法在機(jī)器學(xué)習(xí)中應(yīng)用廣泛,尤其是在深度學(xué)習(xí)中。AdaDelta,AdaGrad,Adam,NAG等改進(jìn)的梯度下降法都是用梯度構(gòu)造更新項(xiàng),區(qū)別在于更新項(xiàng)的構(gòu)造方式不同。對(duì)梯度下降法更全面的介紹可以閱讀SIGAI之前的公眾號(hào)文章“理解梯度下降法”。 

3.牛頓法的關(guān)鍵點(diǎn)


牛頓法利用了函數(shù)的一階和二階導(dǎo)數(shù)信息,直接尋找梯度為0的點(diǎn)。牛頓法的迭代公式為:

圖片


其中H為Hessian矩陣,g為梯度向量。牛頓法不能保證每次迭代時(shí)函數(shù)值下降,也不能保證收斂到極小值點(diǎn)。在實(shí)現(xiàn)時(shí),也需要設(shè)置學(xué)習(xí)率,原因和梯度下降法相同,是為了能夠忽略泰勒展開(kāi)中的高階項(xiàng)。學(xué)習(xí)率的設(shè)置通常采用直線搜索(line search)技術(shù)。
在實(shí)現(xiàn)時(shí),一般不直接求Hessian矩陣的逆矩陣,而是求解下面的線性方程組:

圖片


其解d稱為牛頓方向。迭代終止的判定依據(jù)是梯度值充分接近于0,或者達(dá)到最大指定迭代次數(shù)。
牛頓法比梯度下降法有更快的收斂速度,但每次迭代時(shí)需要計(jì)算Hessian矩陣,并求解一個(gè)線性方程組,運(yùn)算量大。另外,如果Hessian矩陣不可逆,則這種方法失效。

4.拉格朗日乘數(shù)法


拉格朗日乘數(shù)法是一個(gè)理論結(jié)果,用于求解帶有等式約束的函數(shù)極值。對(duì)于如下問(wèn)題:

圖片

構(gòu)造拉格朗日乘子函數(shù):

圖片


在最優(yōu)點(diǎn)處對(duì)x和乘子變量的導(dǎo)數(shù)都必須為0:

圖片


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25