《周志華機器學習》簡要

分類和回歸

奧卡姆剃刀：若有多個假設與觀察一致，則選擇簡單的那個

評估方法

效能度量

偏差與方差

距離

最小二乘法：與mse均方差含義有些類似。基於mse最小化來進行模型求解的方法稱為最小二乘法

lda：線性判別分析。給定訓練樣例集，設法將樣例投影到一條直線上，同類樣例投影點盡可能接近，不同類盡可能遠。

p和np問題，衡量問題計算複雜度。參考

boosting和bagging

整合策略

聚類指標，分為有驗證集指標和無驗證集指標。sklearn都實現了他們。參考

有驗證集

無驗證集

k-means步驟：

隨機選取k個值作為初始均值向量（冷啟動）

將樣本放入距離最近的均值向量簇中

簇構造好後，重新計算均值向量

迭代第二步

直到兩次迭代的結果簇完全相同，則停止

dbscan步驟：

層次聚類：

最大似然估計mle

l1正則和l2正則

1.錯誤率分類錯誤的樣本數佔樣本總數的比例。精度精度 1 錯誤率誤差學習器的實際輸出與樣本的真實輸出之間的差異訓練誤差學習器在訓練集上的誤差，也稱為經驗誤差泛化誤差在新樣本上的誤差 2.過擬合當學習器把訓練樣本學得太好了的時候，很可能已經把訓練樣本自身的一些特點當作了所有潛...

1.決策樹是一種常見的機器學習方法，也稱為判定樹決策樹是基於樹結構來進行決策的。2.決策過程的最終結論對應了我們所希望的判定結果。決策過程中提出的每個判定問題都是對某個屬性的測試每個測試的結果或是匯出最終結論，或是匯出進一步的判定問題，其考慮範圍是在上次決策結果的限定範圍之內。3.一顆決策樹...

1，監督學習分類回歸無監督學習聚類 2，決策樹根據資訊增益的大小來確定節點資訊熵描述事務確定性程度的值需要多少個bit來描述資訊 ent d pklog2pk 資訊增益資訊熵某個屬性劃分的平均資訊熵該屬性劃分純度 3，支援向量機中對超平面的理解劃分超平面用以下線性方程表示 w...