AI學習過程(5) 在大資料上進行機器學習

2021-06-29 04:39:35 字數 918 閱讀 6000

使用隨機梯度下降和來在大資料上執行機器學習任務。

隨機梯度下降與一般的梯度下降法的區別無非是把樣本的m以迴圈的方式放置到計算每個梯度的外部而已。使用隨機梯度下降方法1.不一定每一步都是在優化;2.不會直接收斂到最終最優點(全域性或者區域性,但實際上邏輯回歸中只有乙個最優),而是圍繞最優點附件的一定區域內打轉轉,這個收斂尚可,也支援構建乙個相當不錯的演算法。在使用隨機梯度下降的時候,一般只執行一次整體迴圈(就把整個樣本算一次就可),一般業界也執行1到10遍整個迴圈。隨機梯度下降適用於所有的方法。

mini-batch梯度下降。隨機梯度下降使用batch=1,梯度下降使用batch=m,在mini-batch中,使用的batch=1~100。在mini-batch梯度下降中,每個子迴圈使用batch各樣本對梯度進行更新,而外圍則以每次batch的步長進行迴圈。mini-batch梯度下降比隨機梯度下降好處僅在於,他利用了現有函式庫中向量化計算的並行部分以減少運算時間。隨機梯度下降的每個1都是固定的,而mini-batch梯度下降100個1的乙個batch利用的資源要小於100。

online learning沒有什麼新奇的內容,只不過把每次獲得的資料用於乙個求解{成本和偏導數}的迴圈中,每個資料只執行一次,然後將這個資料拋棄。

map reduce用於資料的並行處理。map reduce也沒什新奇的地方,無非是把梯度下降的加和部分分解為多台並行的計算機進行計算,然後一起傳送到伺服器進行加和,求解梯度。在其他map reduce的相關應用中,map reduce是否能夠成功應用取決於是否能將公式中的加和部分分解到分別的計算機進行計算。因此,當某個演算法所依賴的函式庫的確已經實現了分布式計算,那麼就不必使用map reduce進行對映。map reduce的乙個開源化工具是hadoop

大資料學習筆記 大資料學習過程中的重點

目前大資料開發方面,市場上最主要的還是用spark做開發居多。這一點也可以從招聘 上可以看到。整個大資料體系經過這麼多年的發展,相當的繁雜,各種各樣的元件,但是其中有一些已經過時了,或者用的少了,其實乾脆就不用學了,免得浪費時間。下面介紹自己學習過程中的大資料重點。1.linux linux系統肯定...

在AI人工智慧中如何學習大資料,成為佼佼者

大資料和人工智慧的關係,首先要說什麼是大資料。這些年來,大資料先是被神化,繼而又被妖魔化,到了今天,其實誰也不知道別人所謂的大資料指的是什麼。但為了說清楚大資料和人工智慧的關係,我們還是回歸大資料的本質 海量的 多維度 多形式的資料。人工智慧 任何智慧型的發展,其實都需要乙個學習的過程。而近期人工智...

菜鳥學習大資料技術的過程

作為菜鳥的我,對資料分析產生了興趣,揭示隱藏在各種各樣不同資訊背後的相互關係。在這個資料為王的時代,資料驅動產生變革,讓資料儲存的更安全 計算的更快 分析的更精確,讓我們跟隨王家林老師的腳步去學習吧。spark 是在 scala 語言中實現的,建立spark的目的是為了支援分布式資料集上的迭代作,但...