分類和回歸
奧卡姆剃刀:若有多個假設與觀察一致,則選擇簡單的那個
評估方法
效能度量
偏差與方差
距離
最小二乘法:與mse均方差含義有些類似。基於mse最小化來進行模型求解的方法稱為最小二乘法
lda:線性判別分析。給定訓練樣例集,設法將樣例投影到一條直線上,同類樣例投影點盡可能接近,不同類盡可能遠。
p和np問題,衡量問題計算複雜度。參考
boosting和bagging
整合策略
聚類指標,分為有驗證集指標和無驗證集指標。sklearn都實現了他們。參考
有驗證集
無驗證集
k-means步驟:
隨機選取k個值作為初始均值向量(冷啟動)
將樣本放入距離最近的均值向量簇中
簇構造好後,重新計算均值向量
迭代第二步
直到兩次迭代的結果簇完全相同,則停止
dbscan步驟:
層次聚類:
最大似然估計mle
l1正則和l2正則
機器學習(周志華) 西瓜書簡要筆記(2)
1.錯誤率 分類錯誤的樣本數佔樣本總數的比例。精度 精度 1 錯誤率 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 學習器在訓練集上的誤差,也稱為 經驗誤差 泛化誤差 在新樣本上的誤差 2.過擬合 當學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當作了所有潛...
機器學習(周志華) 西瓜書簡要筆記(4)
1.決策樹是一種常見的機器學習方法,也稱為 判定樹 決策樹是基於樹結構來進行決策的。2.決策過程的最終結論對應了我們所希望的判定結果。決策過程中提出的每個判定問題都是對某個屬性的 測試 每個測試的結果或是匯出最終結論,或是匯出進一步的判定問題,其考慮範圍是在上次決策結果的限定範圍之內。3.一顆決策樹...
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...