機器學習軌跡

1.knn演算法：是為了對例項進行正確地分類，其最大的缺點是無法給出資料的內在含義。該演算法的關鍵在於針對不同的資料集選擇合適的「距離」，因為對距離的定義我們有很多種方式，比如歐式距離、切比雪夫距離等。

2.決策樹：既可以回歸也可以分類；決策樹通常有三個步驟：特徵選擇、決策樹的生成、決策樹的修剪；用決策樹分類：從根節點開始，對例項的某一特徵進行測試，根據測試結果將例項分配到其子節點，此時每個子節點對應著該特徵的乙個取值，如此遞迴的對例項進行測試並分配，直到到達葉節點，最後將例項分到葉節點的類中；決策樹學習的目標：根據給定的訓練資料集構建乙個決策樹模型，使它能夠對例項進行正確的分類。

決策樹學習的損失函式：正則化的極大似然函式

決策樹學習的測試：最小化損失函式

其中分支節點為判斷模組即對所選擇的特徵，葉子節點為最終分類結果的模組即可以得出最終的結論或者分類結果。

決策樹的優勢在於資料形式非常容易理解且可以更好地理解資料的內在含義。

構建決策樹的實質時根據該特徵對訓練資料進行分割，使得各個子資料集有乙個最好的分類的過程。這一過程對應著對特徵空間的劃分，也對應著決策樹的構建。即利用訓練資料構建最優的決策樹即可以花費最少的平均時間和步驟進行分類，然後待測點通過該決策樹進行分類。

劃分資料集有兩種演算法：id3和c4.5；劃分資料集的大原則是：將無序資料變得更加有序，在劃分資料集前後資訊發生的變化稱為資訊增益，獲得資訊增益最高的特徵就是最好的選擇，即先對每個特徵對資料集進行劃分，選取最高資訊增益的特徵為我們選擇的最優特徵。

所謂資訊增益是指得知特徵x的資訊而使得類y的資訊不確定性減少的程度。

舉個栗子，判斷乙個西瓜是否為好瓜，我們有許多特徵進行判斷，而如果我們僅做一次判斷可以使得我們做出的決策正確概率最大的特徵就是我們當前應當選取的特徵。比如顏色，如果不是綠色，則我們可以斷定它不是好瓜，但如果是綠色，我們還要進一步判斷，資訊增益是說，當我們已知該瓜的某乙個特徵比如顏色的情況下，我能進行正確分類的概率大大增加了，比如之前我只有0.5的概率猜對，而得知後，我有0.8的概率猜對，這就是資訊增益即條件概率。

求解資訊增益：熵、條件熵（h(y∣x)表示在已知隨機變數x的條件下隨機變數y的不確定性），而這裡的概率就是統計頻率即選擇該特徵的概率；因此，資訊增益熵-條件熵，資訊增益率資訊增益/熵；這裡的熵指的是無視任何屬性的情況下，即不知任何先驗資訊的情況下，我瞎猜能猜對的平均概率有多大。經過第一輪選取最優屬性後，將表劃分為k個子表，再對子表重複上述操作直至無法劃分子表為止。

小技巧：剪枝（預剪枝和後剪枝）；損失函式

1.聯邦學習：目的是為了解決資料孤島，在不共享資料的前提下，實現資料的融合，充分利用大資料，再通過機器學習或者資料探勘等技術將這些資料的潛在價值最大化

2.遷移學習：是一種機器學習方法，就是把為任務 a 開發的模型作為初始點，重新使用在為任務 b 開發模型的過程中。可以提公升效率，有些類似c++的**重用的趕腳

機器學習軌跡

機械人軌跡規劃

Python學習軌跡 0503

演算法學習的軌跡

機器學習軌跡

機械人軌跡規劃

Python學習軌跡 0503

演算法學習的軌跡

相關推薦