機器學習之大資料集

前言

簡介大資料時代已經來臨，它將在眾多領域掀起變革的巨浪。機器學習對於大資料集的處理也變得越來越重要。大資料

集務必會帶來恐怖的計算量，不僅耗費大量資源，而且給資料處理的實時性帶來巨大的挑戰。

想要解決這個難題，就需要採取以下措施：選擇更加適合大資料集的演算法、更加好的硬體，採用平行計算等。

本文內容較多，建立以下目錄，方便瀏覽：

批量梯度下降法

以線性回歸為例，如果m很大，每次迴圈都得進行m次求和，計算量非常大，不建議。

隨機梯度下降法

以線性回歸為例，隨機梯度下降法採用單次代價函式cost，每次迭代θ，不需要執行那麼多次加法，計算量小很多。

注意：樣本需要隨機打亂。

微型批量梯度下降法

以線性回歸為例，設樣本數量m=1000，小批量數b=10，即每次迭代只需10次疊加，計算量也很少。

判斷收斂

之前資料量很少的時候，我們都是直接判斷代價函式j(θ)，只要其不再減少則收斂。然後在資料量很大的情況下，如

果實時監控代價函式，必然帶來巨大的計算量。其實，我們可以每隔1000次計算一下代價函式cost，將其畫成曲線，取其

低谷處為收斂，若出現曲線趨勢遞增，則表明發散。（圖中的細小起伏波紋是噪音導致）

選擇學習速率α

我們選擇隨機梯度下降法來處理大資料，雖然可以達到減小計算量的效果，但是並不能準確地達到極值點，有些人為

了盡量逼近極值點，設定α=常數1/（迭代次數+常數2）。

雖然無法達到極值點，但是也相差不多，所以一般α取常數即可。

對大規模和困難模式分類問題能提供有效解

map readuce

以批量梯度下降法為例，將m=400的資料集分為4部分，分別由4臺電腦處理。如下圖所示：

此外，你也可以用多核電腦進行平行計算。

12 機器學習之大資料學習

目錄一背景二隨機梯度下降法三 mini batch 梯度下降演算法四隨機梯度下降演算法收斂五結束首先，如果在演算法的訓練樣本量m不足的時候得到的模型具有高方差 high variance 那麼此時我們需要更多的訓練樣本。但是如果演算法具有高偏差，提高樣本數量並不會顯著改善模型的效...

大資料之大資料時代

下面，開啟第一講大資料之大資料時代講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史，也不過短短幾十年，在這幾十年裡，我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前，1980年前後，pc機進入市場，ibm公司制定了全球的pc標準，即一台電腦...

大資料之大資料技術架構

上期我們說到大資料的概念，其實，大資料比我們想象中的還要複雜，本期，我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱，它是集合了資料採集與傳輸資料儲存資料處理與分析資料探勘資料視覺化等技術，是乙個龐大而複雜的技術體系。根據大資料從到應用，實現傳輸的流程，可以將大資料技...

機器學習之大資料集

12 機器學習之大資料學習

大資料之大資料時代

大資料之大資料技術架構

相關推薦