泰勒公式推導過程 論泰勒級數在機器學習家庭中的地位

2021-10-12 06:08:39 字數 2103 閱讀 1933

01泰勒級數是什麼

泰勒級數是以於2023年發表了泰勒公式的英國數學家布魯克·泰勒(sir brook taylor)的名字來命名的。通過函式在自變數零點的導數求得的泰勒級數又叫做邁克勞林級數,以蘇格蘭數學家科林·麥克勞林的名字命名。泰勒級數是因為需要用乙個多項式來逼近所有函式而產生。乙個函式f(x)只要滿足在含有以下公式點a的某個區間i內有任意階導數,就能使用泰勒級數去逼近f(x),而且最後級數需要收斂。

泰勒級數公式如下:

可以看到,f(x)最後通過一系列的多項式去表示。這就是泰勒級數的作用,用一系列多項式去逼近乙個函式。

02熵與gini指數的關係

先解釋什麼是熵,記得之前的文章已經有些涉及。熵是一種不確定性的度量,可以用來度量決策樹**過程中的**效果。熵越大說明乙個集合中的類別分別越不明確。gini指數也是一樣的含義。

兩者的公式對比如下:

在公式中,pk代表在集合中k類別的佔比,所以可以根據pk計算熵和基尼指數。後面就能用到利用泰勒級數讓熵近似轉化為基尼指數。我們讓f(x)=-lnx在x=1處進行一階泰勒展開:

f(x)

≈f(x0)+f(x)´∗(x−x0)+0(′)=f(1)+f(1)´∗(x−1)+0(′)=1−x

根據上面的關係我們就能看到-ln(pk)=1-pk,最後得到熵h(x)和gini(x)近似相等。

0 3xgboost中的應用

當把上面泰勒級數中的x賦值為a+δx,讓x在x=a處泰勒二階展開,得到: 

f(a+δx)≈f(a)+f(a)´∗δx+f(a)′′∗(δx)2/2 

xgboost的損失函式為以下目標函式,我們這邊不詳細討論以下等式的細節,可以詳見之前講解xgboost的文章《xgboost原理基礎直梯度提公升樹》,這裡主要描述的是泰勒級數在這個xgboost中的應用。

而:

所以:

在等式中

相當於泰勒二階展開式中的a+δx,

相當於x ,相當於δx,所以得到:

等於最後得到:

所以總的來說,以上的轉換需要泰勒級數在整個過程中的使用。

04梯度下降法中的應用

θt=θt−1+δθ

我們把損失函式在θt−1處泰勒一階展開,得到:

l(θt)=l(θt−1+δt)≈l(θt−1)+l(θt−1)′∗δx

l(θt)=>  l(θt)-l(θt−1)=l(θt−1)′∗δx<0

那麼我們控制δx,令δx=−α*l(θt−1)′,然後再控制α>0,那樣代入上面的式子就能保證l(θt)-l(θt−1)<0,在每一步迭代之後,損失函式都在減少。最後就能最小化損失函式。當然我們給的只是一種梯度下降的例子,實際上在別的梯度下降演算法中α值不是固定的,大家有興趣我們可以跟多交流。

// 最後的感悟//

總的來說,如果在我們資料建模這一行,業務和模型都很重要,沒有了業務理解,我們沒有了讓模型產生價值的方向,做出來的模型沒辦法落地。沒有模型演算法的基本理解,就沒有建模的基礎,也無從下手,而模型演算法的基礎中數學基礎也很重要,以上泰勒級數在機器學習中的三個例子也有一定的說明。所以我們在下班之餘可以多學習一些模型演算法並且思考怎麼結合業務實際,使它有落地的價值,然後才能公升職加薪,迎娶白富美,成為人生贏家啦。

用泰勒公式推導梯度下降原理

泰勒公式,應用於數學 物理領域,是乙個用函式在某點的資訊描述其附近取值的公式。如果函式足夠平滑的話,在已知函式在某一點的各階導數值的情況之下,泰勒公式可以用這些導數值做係數構建乙個多項式來近似函式在這一點的鄰域中的值。說白了,泰勒公式就是 可以使用函式在某點的各階導數組成高次多項式去逼近乙個函式。泰...

泰勒公式矩陣形式 極限求解 泰勒公式理解

泰勒公式,本質上是一種函式的近似,強大之處就在於可以將不同型別的函式,統一用多項式求和的形式進行替換,從而變成多項式的運算。本篇主要是標出常見的幾個泰勒展開式 高階無窮小的計算規則 泰勒公式使用時應該展開到第幾項以及泰勒公式的應用。記憶 一般情況下,考研只會考到某一基本函式展開式x的3到4次方,因為...

泰勒公式那些事

泰勒函式的收斂域 可多項式逼近的鄰域 收斂範圍 始終只能在乙個小範圍內收斂到原函式 收斂範圍和展開點有關 收斂範圍關於展開點對稱 收斂半徑 函式展開點到最近奇點的距離 收斂圓 包含複數域 收斂區域 多項式逼近無法越過間斷點 收斂半徑 展開點到最近的間斷點的距離 廣義間斷點 五次以上方程沒有求根公式 ...