大資料筆記

2022-07-17 02:39:10 字數 1383 閱讀 3155

分類:利用資料學習模型或得到規則,用於**或者判定乙個輸入所屬的類,或者計算屬於某一類的概率;給定乙個輸入,所產生的輸出是乙個布林值。

回歸:    y = g (x | w )

g ( ): 模型

w:引數

關鍵:確定損失函式,以及最小化損失函式的過程(梯度下降、隨機梯度下降)

(批量)梯度下降: 給出損失函式f(wx),目的是優化w使f(wx)的值最小, wt+1 = wt - a*  a是學習率(步長)

一次迭代是對所有樣本進行計算,此時利用矩陣進行操作,實現了並行。

隨機梯度下降: wt+1 = wt - a*

在每輪迭代中,隨機優化某一條訓練資料上的損失函式,這樣每一輪引數的更新速度大大加快。

小批量梯度下降:折衷

步長:步子太大容易「左右橫跳」-- 振盪,難以收斂;步子太小可能會收斂到區域性最優,速度慢。

非監督學習:與監督學習不同,有時並不知道已有資料(輸入)的輸出是什麼,即只有輸入資料,目標是發現輸入資料中的規律

學習的目標是發現哪些模式更經常發生(統計學中為密度估計)

knn:k nearest neighbor(k近鄰分類器)

對於乙個未知類別的輸入x,在訓練資料中找出與此資料最近的k個資料,k個資料中類別出現次數最多的類別作為對輸入資料類別的**。

關鍵:距離的計算,可由二維平面擴充套件至n維特徵空間。

二:k折交叉驗證 k-fold cross validation  k一般取10,

1、 將全部訓練集 s分成 k個不相交的子集,假設 s中的訓練樣例個數為 m,那麼每乙個子 集有 m/k 個訓練樣例,相應的子集稱作 。

2、每次從分好的子集中裡面,拿出乙個作為測試集,其它k-1個作為訓練集

3、根據訓練訓練出模型或者假設函式。

4、 把這個模型放到測試集上,得到分類率。

5、計算k次求得的分類率的平均值,作為該模型或者假設函式的真實分類率。

這個方法充分利用了所有樣本。但計算比較繁瑣,需要訓練k次,測試k次

留一交叉驗證,其折數就是樣本的個數,

優點:每次使用盡可能多的資料進行訓練(只有乙個1例項用於測試),從而能夠得到更準確的分類器。

這個方法具有確定性,因為取樣是確定的,因而最後的誤差估計也是確定的。所以沒有必要重複留一交叉驗證。

缺點:計算成本較高。需要m次訓練和**,對於大資料集來說,通常不可行(速度太慢了),反而可以在小資料集上得到盡可能正確的估計。

因為確定了取樣方式(每次除去1個),因此不能進行分層(讓資料呈現一定的比例),所以對資料集的某演算法誤差估計可能存在問題。這裡舉個例子:想象乙個完全隨機的資料集,含有數量相等的兩個類,面對乙個隨機資料,所能給出的最好的**方式是**它屬於多數類,其真實誤差率為50%。但在留一法中,與測試資料相反的類才是多數類,因此每次**都是錯的,也就是誤差率高達100%。

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...

大資料筆記1

spark實現平行計算 把超大的資料集合分成n個分塊的資料集,用m個執行器 mspark是一種分布式並行處理計算框架,與hadoop聯合使用,增強hadoop的效能,增加記憶體快取 流資料處理 圖形處理等高階的資料處理能力。spark的中間結果儲存在記憶體上,在迭代計算方面擁有更好的效能,而mapr...

大資料筆記五

物件導向程式設計 三 什麼是類?四 類與物件 一 3 成員變數的型別 預設初始值 數值型別 byte short int long float double 0 boolean型 false char型 false u0000 引用型別 null 類與物件 二 五 成員變數和區域性變數 例句 pac...