機器學習大規模學習平台架構

2021-08-03 05:05:08 字數 546 閱讀 2749

對於已有的開源的機器學習框架，很多都是單機環境下部署的，但是對於大公司層面的機器學習的應用需求，簡單的單機，分布式spark機器學習平台很難滿足公司的大資料應用需求，因為不僅要求具有正確性，還要求高效性和穩定性。

這裡面存在很多的問題，比如模型如何在多台機器上跑，引數如何分布在多台伺服器上，構成parameter server （google提出的），同樣的，這些引數如何時時的更新，學習，並且如何儲存中間結果，多台訓練worker時時的相互互動，實現同步或者非同步等問題。

想要把tensorflow，caffe，torch等非常好的機器學習，深度學習框架實現並行化，需要很大的投入。其中對於這些模型，很重要的部分就是引數的學習，在一定程度上，這些引數就表徵了整個模型，最終學習，訓練的結果就是編碼體現在這些引數中的。因此想要實現分布式的機器學習框架平台，很大程度需要實現分布式引數伺服器，有了分布式引數伺服器，便可以在此基礎上擴充套件機器學習平台，將單機版的機器學習模型轉換為分布式ps-機器學習模型。

在有了引數伺服器之後，便需要將模型分布式化，這裡主要修改i/o層和通訊層，這兩個模組必須要好好的研究，才能實現這個轉換工程。

大規模實時流處理平台架構 zz

接下來我們分享這個流分發網路中涉及到的實時流處理平台的架構。這裡我們先簡單的來看下這個實時流處理平台包含哪些內容。這是我們直播雲平台的框架圖，我們今天分享的內容主要集中於儲存與回訪轉碼和內容處理以及內容識別平台的架構，同時它還包含實時轉儲存的能力，也就是圖中間的綠色部分所表示的模組。從...

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...