Hadoop集群中的自定義Python環境

2021-09-19 10:50:02 字數 621 閱讀 6179

新建純淨版的虛擬環境

virtualenv --no-site-packages venv修改虛擬環境為可遷移狀態

virtualenv --relocatable venv啟用虛擬環境

source venv/bin/activate虛擬環境安裝包

pip install -i退出虛擬環境

deactivate打包虛擬環境(.zip/.tar.gz/.jar等)

tar -czf python.tar.gz上傳虛擬環境至hdfs

hdfs dfs -put python.tar.gz ./虛擬環境引用路徑(本地檔案/hdfs)

hadoop_python_bin="hdfs:///user"虛擬環境直譯器路徑

./python/venv/bin/python虛擬環境lib配置環境變數

ld_library_path=$:./python/venv/lib

注:推薦使用pipenv建立以及管理虛擬環境。

hadoop自定義分割槽

實現自定義分割槽比較簡單了,繼承partitioner,實現getpartition 方法就行了,分割槽是按照key進行的。以wordcount為例。輸入文字1 hello world hello 3.輸入文字2 hello world world 4 編寫程式,hello 和world各自為乙個分...

hadoop自定義許可權

參考 1.測試類 想執行hadoop的測試類,我們必須先編譯hadoop mac下編譯hadoop 2.7.4 然後檢視測試類 org.apache.hadoop.hdfs.server.namenode.testinodeattributeprovider然後直接執行testdelegationt...

Hadoop自定義排序 分割槽

自定義分割槽 主函式分割槽與分組 該物件需要實現writablecomparable介面。public class myclass implements writablecomparable public void setyear int year public int gettemperature...