分布式機器學習dask

2021-09-30 20:51:44 字數 888 閱讀 4020

分布式機器學習

dask是乙個資料分析的平行計算的框架。

pip安裝

pip install 「dask[compete]」 # install everything

pip install dask # install only core

cluster 部署

# 安裝dask 1.2.2

conda install dask==1.2.2 或者 pip install dask[complete]

==1.2.2

# 啟動scheduler程序,並掛後台

nohup dask-scheduler --host 172.16.36.20 &

# 啟動worker程序,指定scheduler的位址是203,埠是8786,**中提交的埠也是8786,並掛後台

nohup dask-worker --name work-01 172.16.36.20:8786 &

# 關閉防火牆就可以通過8787埠檢視集群狀態

sudo systemctl status firewalld # 檢視防火牆狀態,加d是服務

sudo systemctl stop firewalld # 關閉防火牆

dask有兩種task scheduler

import dask.dataframe as dd

df = dd.read_csv(..

.)df.x.

sum(

).compute(

)# this uses the single-machine scheduler by default

distributed scheduler

分為兩類:

分布式機器學習第3章 分布式機器學習框架

q 需要使用到分布式機器學習有哪三種情形?q 對於計算量太大時的分布式機器學習解決辦法 q 對於訓練資料太多時的分布式機器學習解決辦法 q 對於模型規模太大時的分布式機器學習解決辦法 q 目前分布式機器學習領域的主要矛盾是?q 分布式機器學習的主要組成模組有哪四個?q 分布式機器學習的資料劃分中,對...

使用python的dask搭建分布式集群

優勢 dask內部自動實現了分布式排程 無需使用者自行編寫複雜的排程邏輯和程式 通過呼叫簡單的方法就可以進行分布式計算 並支援部分模型的並行化處理 內部實現的分布式演算法 xgboost lr sklearn的部分方法等 用一句話說 dask就是python版本的spark,是乙個用python 語...

分布式機器學習主要筆記

mahout是hadoop的乙個機器學習庫,主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾 使用者建議 聚類和分類。mllib 執行在s...