白話大資料與機器學習 閱讀筆記

2021-09-24 07:08:39 字數 2302 閱讀 5278

第八章 回歸

線性回歸&擬合

y = ax+b+e 

複製**

殘差分析(最小二乘法)

誤差e:

|e| = |ax+b-y|

複製**

求e的和q

q = \sum_^n (ax_i + b - y_i)^2

複製**

問題轉化為求q最小值時a,b的值,即

\frac = 0        

\frac = 0

複製**

過擬合

為了迎合所有樣本向量點甚至雜訊點而使模型描述過去複雜。

危害:

是邏輯過於複雜。

失去泛化能力。(**的結果準確性下降)

解決方法

樣本量過少

儘量減少噪點

欠擬合引數過少

擬合不當:例如:數學模型不對

聚類聚類指的是一種學習方式。把物理或抽象物件的集合分組為彼此類似的物件組成的多個類的分析過程。

k-means 演算法

有趣的模式

易於被人理解

在某種確信度上,對於新的或檢驗資料是有效的。

是潛在有用的

是新穎的

孤立點層次聚類

聚類裡面還有聚類

密度聚類

聚類評估

估計聚類的趨勢:資料中必須存在非隨機結構

確定資料集中的簇數

測量聚類的質量

聚類趨勢

簇數確定

經驗法:簇數p = \sqrt \frac , 每個簇大概有\sqrt 個點。

肘方法(更科學):假設分為n個類,n從1開始遞增,最大值為樣本點數。計算每個聚類中各個向量到該聚類的中心距離的和x,把每個和x相加得到乙個結果y。用函式值表示y = var(n)。把函式y繪製出來得到一條遞減的非線性函式,其函式斜率變化最大的對應點n即為最佳的簇數。

測定聚類質量

外在方法:樣本已經有嚴格的類別定義,在跟據該分類去觀察是否分類正確。

內在方法:事先沒有分好類。使用輪廓係數衡量。

分類樸素貝葉斯

決策樹歸納

樣本收集

資訊增益

資訊熵:

這個熵也叫「期望資訊」

資訊量與資訊熵相對詳細且通俗的解釋(這篇文章作者不是我,我也是通過這篇文章學習的。)

條件熵

條件資訊熵的通俗理解(這篇文章作者不是我,我也是通過這篇文章學習的。)

資訊增益:

連續型變數

求所有相鄰值的平均值

求每個平均值作為切割點的資訊增益

得到資訊增益最大時的切割點為最佳切割點。

構造數得思路:

找到資訊增量最大得字段a和資訊增益最大得切割點v(無論連續還是列舉)。

決定根節點的字段a和切分點v。

把字段a從所有待選的字段列表中拿走,再從第一步開始。此時決策已經走了一步,根節點**成兩個分支。因此樣本空間也隨著該欄位a的分類分成兩個部分。

隨機森林

隱馬爾可夫模型(hmm)

問題一:知道骰子有幾種(隱含狀態數量),每種骰子是什麼**換概率),根據骰子骰出的結果(可見狀態鏈),想知道每次骰出的是什麼骰子。即骰出的是什麼型別骰子?(兩種解決方法)

最大似然狀態路徑:求一串骰子序列,通過該序列產生的結果與事實觀測結果重合的概率最大。

求每次擲出的骰子是某種骰子的概率。

問題二:知道骰子有幾種(隱含狀態數量),每種骰子是什麼**換概率),根據骰子骰出的結果(可見狀態鏈),想知道骰出這個結果的概率。即有多大的概率骰出這個數字?

主要用於觀察到的結果和已知模型是否吻合。

問題三:知道骰子有幾種(隱含狀態數量),不知道每種骰子是什麼**換概率),觀測到很多次骰子骰出的結果(可見狀態鏈),反推每種骰子是什麼。

維特比演算法(viterbi algorithm)

前向演算法

支援向量機svn(support vector machine)

年齡和好壞

距離有多遠

超平面公式簡寫: g(v)=wx+b

n維空間中的距離:

上述\sqrt、\sqrt、\sqrt等分別是一維空間、二維空間、三維空間的範數||w||。

距離公式簡寫: d=\frac\cdot |g(v)|

分不開怎麼辦

python的scikit-learn庫,svc類,支援包括linear(線性核函式)、poly(多項式核函式)、rbf(徑向基核函式)、sigmoid(神經元啟用核函式)、precomputed(自定義核函式)

小結

《大資料時代》閱讀筆記

此筆記包括摘錄和心得,黑色字型為摘錄,紅色字型為心得。1,google 禽流感的案例說明的道理 以一種前所未有的方式,通過對海量資料進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。2,大資料有點類似博弈論,最終結果都是影響使用者的最終判斷。而大資料是理性的,有海量事實資料來支撐,但建模的精準度又...

深度學習 機器學習與大資料

深度學習是機器學習中的一種技術,機器學習包含深度學習。機器學習還包含其他非深度學習的技術,比如支援向量機,決策樹,隨機森林,以及關於 學習 的一些基本理論,比如,同樣都能描述已知資料的兩個不同模型,引數更少的那個對未知資料的 能力更好 奧卡姆剃刀原理 深度學習是一類特定的機器學習技術,主要是深度神經...

《機器學習實戰》閱讀筆記(三)

接上篇 2.2.3準備資料 歸一化數值 由於數值較大的值會產生較大的影響,所以需要歸一化,公式如下 newvalue oldvalue min max min 歸一化函式如下 def autonorm dataset minvals dataset.min 0 maxvals dataset.max...