白話大資料與機器學習閱讀筆記

第八章回歸

線性回歸&擬合

y = ax+b+e 
複製**

殘差分析（最小二乘法）

誤差e:

|e| = |ax+b-y|
複製**

求e的和q

q = \sum_^n (ax_i + b - y_i)^2
複製**

問題轉化為求q最小值時a,b的值，即

\frac = 0        
\frac = 0
複製**

過擬合

為了迎合所有樣本向量點甚至雜訊點而使模型描述過去複雜。

危害：

是邏輯過於複雜。

失去泛化能力。（**的結果準確性下降）

解決方法

樣本量過少

儘量減少噪點

欠擬合引數過少

擬合不當：例如：數學模型不對

聚類聚類指的是一種學習方式。把物理或抽象物件的集合分組為彼此類似的物件組成的多個類的分析過程。

k-means 演算法

有趣的模式

易於被人理解

在某種確信度上，對於新的或檢驗資料是有效的。

是潛在有用的

是新穎的

孤立點層次聚類

聚類裡面還有聚類

密度聚類

聚類評估

估計聚類的趨勢：資料中必須存在非隨機結構

確定資料集中的簇數

測量聚類的質量

聚類趨勢

簇數確定

經驗法：簇數p = \sqrt \frac , 每個簇大概有\sqrt 個點。

肘方法（更科學）：假設分為n個類，n從1開始遞增，最大值為樣本點數。計算每個聚類中各個向量到該聚類的中心距離的和x,把每個和x相加得到乙個結果y。用函式值表示y = var(n)。把函式y繪製出來得到一條遞減的非線性函式，其函式斜率變化最大的對應點n即為最佳的簇數。

測定聚類質量

外在方法：樣本已經有嚴格的類別定義，在跟據該分類去觀察是否分類正確。

內在方法：事先沒有分好類。使用輪廓係數衡量。

分類樸素貝葉斯

決策樹歸納

樣本收集

資訊增益

資訊熵：

這個熵也叫「期望資訊」

資訊量與資訊熵相對詳細且通俗的解釋（這篇文章作者不是我，我也是通過這篇文章學習的。）

條件熵

條件資訊熵的通俗理解（這篇文章作者不是我，我也是通過這篇文章學習的。）

資訊增益：

連續型變數

求所有相鄰值的平均值

求每個平均值作為切割點的資訊增益

得到資訊增益最大時的切割點為最佳切割點。

構造數得思路：

找到資訊增量最大得字段a和資訊增益最大得切割點v(無論連續還是列舉)。

決定根節點的字段a和切分點v。

把字段a從所有待選的字段列表中拿走，再從第一步開始。此時決策已經走了一步，根節點**成兩個分支。因此樣本空間也隨著該欄位a的分類分成兩個部分。

隨機森林

隱馬爾可夫模型（hmm）

問題一：知道骰子有幾種(隱含狀態數量)，每種骰子是什麼**換概率），根據骰子骰出的結果（可見狀態鏈），想知道每次骰出的是什麼骰子。即骰出的是什麼型別骰子？（兩種解決方法）

最大似然狀態路徑：求一串骰子序列，通過該序列產生的結果與事實觀測結果重合的概率最大。

求每次擲出的骰子是某種骰子的概率。

問題二：知道骰子有幾種(隱含狀態數量)，每種骰子是什麼**換概率），根據骰子骰出的結果（可見狀態鏈），想知道骰出這個結果的概率。即有多大的概率骰出這個數字？

主要用於觀察到的結果和已知模型是否吻合。

問題三：知道骰子有幾種(隱含狀態數量)，不知道每種骰子是什麼**換概率），觀測到很多次骰子骰出的結果（可見狀態鏈），反推每種骰子是什麼。

維特比演算法(viterbi algorithm)

前向演算法

支援向量機svn(support vector machine)

年齡和好壞

距離有多遠

超平面公式簡寫： g(v)=wx+b

n維空間中的距離：

上述\sqrt、\sqrt、\sqrt等分別是一維空間、二維空間、三維空間的範數||w||。

距離公式簡寫： d=\frac\cdot |g(v)|

分不開怎麼辦

python的scikit-learn庫，svc類，支援包括linear（線性核函式）、poly（多項式核函式）、rbf（徑向基核函式）、sigmoid（神經元啟用核函式）、precomputed（自定義核函式）

小結

白話大資料與機器學習閱讀筆記

《大資料時代》閱讀筆記

深度學習機器學習與大資料

《機器學習實戰》閱讀筆記（三）

白話大資料與機器學習 閱讀筆記

《大資料時代》閱讀筆記

深度學習 機器學習與大資料

《機器學習實戰》閱讀筆記（三）

相關推薦

白話大資料與機器學習閱讀筆記

深度學習機器學習與大資料