機器學習之大資料集

2022-07-16 00:51:09 字數 1392 閱讀 2489

前言

簡介大資料時代已經來臨,它將在眾多領域掀起變革的巨浪。機器學習對於大資料集的處理也變得越來越重要。大資料

集務必會帶來恐怖的計算量,不僅耗費大量資源,而且給資料處理的實時性帶來巨大的挑戰。

想要解決這個難題,就需要採取以下措施:選擇更加適合大資料集的演算法、更加好的硬體,採用平行計算等。

本文內容較多,建立以下目錄,方便瀏覽:

批量梯度下降法

以線性回歸為例,如果m很大,每次迴圈都得進行m次求和,計算量非常大,不建議。

隨機梯度下降法

以線性回歸為例,隨機梯度下降法採用單次代價函式cost,每次迭代θ,不需要執行那麼多次加法,計算量小很多。

注意:樣本需要隨機打亂。

微型批量梯度下降法

以線性回歸為例,設樣本數量m=1000,小批量數b=10,即每次迭代只需10次疊加,計算量也很少。

判斷收斂

之前資料量很少的時候,我們都是直接判斷代價函式j(θ),只要其不再減少則收斂。然後在資料量很大的情況下,如

果實時監控代價函式,必然帶來巨大的計算量。其實,我們可以每隔1000次計算一下代價函式cost,將其畫成曲線,取其

低谷處為收斂,若出現曲線趨勢遞增,則表明發散。(圖中的細小起伏波紋是噪音導致)

選擇學習速率α

我們選擇隨機梯度下降法來處理大資料,雖然可以達到減小計算量的效果,但是並不能準確地達到極值點,有些人為

了盡量逼近極值點,設定α=常數1/(迭代次數+常數2)。

雖然無法達到極值點,但是也相差不多,所以一般α取常數即可。

對大規模和困難模式分類問題能提供有效解

map readuce

以批量梯度下降法為例,將m=400的資料集分為4部分,分別由4臺電腦處理。如下圖所示:

此外,你也可以用多核電腦進行平行計算。

12 機器學習之大資料學習

目錄 一 背景 二 隨機梯度下降法 三 mini batch 梯度下降演算法 四 隨機梯度下降演算法收斂 五 結束 首先,如果在演算法的訓練樣本量m不足的時候得到的模型具有高方差 high variance 那麼此時我們需要更多的訓練樣本。但是如果演算法具有高偏差,提高樣本數量並不會顯著改善模型的效...

大資料之大資料時代

下面,開啟第一講 大資料之大資料時代 講大資料一定脫離不開乙個大的背景。下面先從大資料背景講起。縱觀整個it發展史,也不過短短幾十年,在這幾十年裡,我們這個資訊化社會經歷了三次大的資訊化浪潮。第一次浪潮是在上個世紀90年代前,1980年前後,pc機進入市場,ibm公司制定了全球的pc標準,即一台電腦...

大資料之大資料技術架構

上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...