pyspark中使用自定義模組的問題

2021-08-07 18:21:24 字數 384 閱讀 5695

在使用pyspark時,呼叫自定義的模組(.zip、egg),可能會遇到以下問題:

file "/usr/install/anaconda2/lib/python2.7/site-packages/pyspark/serializers.py", line 454, in loads

return pickle.loads(obj)

importerror: no module named *

這是由於在pyspark中呼叫第三方包時,在executor節點上執行,executor節點上未載入自定義的模組所致。

利用sparksession.sparkcontext.addpyfile即可解決,該方法可以將自定義的模組分發到各個executor節點上

自定義模組

自定義模組 也就是我們自己寫的 1.配置模組說明檔案 npm init 就會生成乙個package.json的檔案 main index.js 我們的主檔案是index.js index.js是這個包的輸出檔案,即便刪除了package.json只要不改變index.js的檔名就沒事,一旦改了就會報...

自定義模組

匯入 拿工具箱 import import test test.func 1 避免寫重複 2 可以多次利用 3 拿來主義print locals import test print locals import test print test.name import test print test.f...

自定義模組

目錄為什麼要使用模組?人們常說的指令碼是什麼?模組的分類 2.import 3 from import 4.py檔案的兩種功能 目錄為什麼要使用模組?人們常說的指令碼是什麼?模組的分類 2.import 3 from import 4.py檔案的兩種功能 乙個函式封裝乙個功能,你使用的軟體可能就是由...