機器學習綜述

監督學習/無監督學習/強化學習/遷移學習；

演算法：線性回歸/k-近鄰演算法/決策樹/隨機森林/pca/神經網路；

將標註好的和測試的樣本對映到座標系中，選取距離該測試樣本歐式距離最近的k個訓練樣本，其中哪個訓練樣本佔比最大，我們就認為它是該測試樣本所屬類別。knn可以處理數值型和標稱型資料，原因在於計算的時間空間複雜度都太高。

構建決策樹，每次選擇讓整體資料夏農熵減小最多的特徵，使用特徵值對資料進行劃分，每次消耗乙個特徵，不斷迭代分類，直到所有特徵消耗完或剩下的資料全為同一類別，不必繼續劃分，至此決策樹構建完成。

先計算聯合概率分布，再利用貝葉斯公式計算給定某個樣本資料後，被分到每個類別的概率分別是多少，然後取最大的那個最為該樣本資料的類別。

我們被給予一堆x維的資料，希望通過一條直線將這對資料正確的分為兩類。我們建立乙個線性分類模型。先設定廚師響亮，輸入訓練資料後，將得到的引數代入sigmoid函式，將0.5設為閾值，大於0.5的為一類，其他為另一類。訓練過程為先利用最大似然估計得到目標函式，再利用梯度上公升演算法優化目標函式，使得訓練樣本生成概率最大化。

降1維來分隔資料，距離平面最近的點叫做支援向量，利用smo最大化支援向量到分隔面的距離，我們計算樣本點到分隔超平面的函式間隔，間隔為正則分類正確。若資料不是線性可分的，則引入核函式將資料從低維空間對映到高維空間，將非線性問題變為線性問題。

adaboost通過組合多個弱分類器來構建乙個強分類器，為每乙個樣本都賦予其乙個權重，最後綜合多個弱分類器的分類結果和其對應的權重的道**結果。

線性回歸：

最小二乘法/區域性加權線性回歸/嶺回歸/前向逐步回歸/樹回歸。

knn/決策樹/邏輯回歸和svm都屬於判別方法，樸素貝葉斯屬於生成方法。

選擇k個初始點作為質心，然後為每個樣本點找最近的質心，並將其分配給對應的簇，然後將每個簇的質心更新為該簇所有點的平均值。質心位置改變，對樣本點的劃分也隨之改變，不斷迭代直到所有樣本點的分類都不再改變，也叫演算法收斂。

根據所給資料構建乙個項集，然後判斷每個項集的支援度。去掉不足的項集，再組合一元素項集構建二元素項集，再去掉支援度不足的項集，知道不存在擁有更多元素的頻繁項集。之後是發現關聯規則，利用分級法，先生成右邊只有乙個元素的關聯規則，然後判斷每條哦規則的可信度，去掉那些不足的，將剩下的拆分子集，生成右邊有兩個元素的關聯規則，不斷迭代直到不存在右側有更多元素的關聯規則。

一次構建fp樹，一次從fp樹中挖掘頻繁項集。常被用作聯想輸入。

其他工具：利用pca和svd來簡化資料

y=kx+b,推測出k值的過程稱為回歸，引數是b。

理解環境/不需要理解環境

樣本/特徵/模型/關係遷移法

機器學習綜述

機器學習綜述

機器學習（一）綜述

統計機器學習綜述

機器學習綜述

機器學習綜述

機器學習（一）綜述

統計機器學習綜述

相關推薦