大資料筆記

分類：利用資料學習模型或得到規則，用於**或者判定乙個輸入所屬的類，或者計算屬於某一類的概率；給定乙個輸入，所產生的輸出是乙個布林值。

回歸： y = g (x | w )

g ( )：模型

w：引數

關鍵：確定損失函式，以及最小化損失函式的過程（梯度下降、隨機梯度下降）

(批量)梯度下降：給出損失函式f(wx),目的是優化w使f(wx)的值最小， wt+1 = wt - a* a是學習率（步長）

一次迭代是對所有樣本進行計算，此時利用矩陣進行操作，實現了並行。

隨機梯度下降： wt+1 = wt - a*

在每輪迭代中，隨機優化某一條訓練資料上的損失函式，這樣每一輪引數的更新速度大大加快。

小批量梯度下降：折衷

步長：步子太大容易「左右橫跳」-- 振盪，難以收斂；步子太小可能會收斂到區域性最優，速度慢。

非監督學習：與監督學習不同，有時並不知道已有資料（輸入）的輸出是什麼，即只有輸入資料，目標是發現輸入資料中的規律

學習的目標是發現哪些模式更經常發生（統計學中為密度估計）

knn：k nearest neighbor(k近鄰分類器)

對於乙個未知類別的輸入x，在訓練資料中找出與此資料最近的k個資料，k個資料中類別出現次數最多的類別作為對輸入資料類別的**。

關鍵：距離的計算，可由二維平面擴充套件至n維特徵空間。

二：k折交叉驗證 k-fold cross validation k一般取10，

1、將全部訓練集 s分成 k個不相交的子集，假設 s中的訓練樣例個數為 m，那麼每乙個子集有 m/k 個訓練樣例，相應的子集稱作。

2、每次從分好的子集中裡面，拿出乙個作為測試集，其它k-1個作為訓練集

3、根據訓練訓練出模型或者假設函式。

4、把這個模型放到測試集上，得到分類率。

5、計算k次求得的分類率的平均值，作為該模型或者假設函式的真實分類率。

這個方法充分利用了所有樣本。但計算比較繁瑣，需要訓練k次，測試k次

留一交叉驗證，其折數就是樣本的個數，

優點：每次使用盡可能多的資料進行訓練（只有乙個1例項用於測試），從而能夠得到更準確的分類器。

這個方法具有確定性，因為取樣是確定的，因而最後的誤差估計也是確定的。所以沒有必要重複留一交叉驗證。

缺點：計算成本較高。需要m次訓練和**，對於大資料集來說，通常不可行（速度太慢了），反而可以在小資料集上得到盡可能正確的估計。

因為確定了取樣方式（每次除去1個），因此不能進行分層（讓資料呈現一定的比例），所以對資料集的某演算法誤差估計可能存在問題。這裡舉個例子：想象乙個完全隨機的資料集，含有數量相等的兩個類，面對乙個隨機資料，所能給出的最好的**方式是**它屬於多數類，其真實誤差率為50%。但在留一法中，與測試資料相反的類才是多數類，因此每次**都是錯的，也就是誤差率高達100%。

大資料筆記

大資料學習筆記 1 1 了解大資料

大資料筆記1

大資料筆記五

大資料筆記

大資料學習筆記 1 1 了解大資料

大資料筆記1

大資料筆記五

相關推薦