基於jupyter搭建pyspark程式設計環境

2021-09-04 02:28:12 字數 1109 閱讀 2381

本文的前提是我們已經在linux系統上基於cdh實現了spark on yarn集群的搭建。

python的版本選擇上,我們選擇python2.7版本,安裝方式選擇anconda安裝,這裡就不詳細贅述了。

找到「/opt/cloudera/parcels/cdh-5.10.2-1.cdh5.10.2.p0.5/lib/spark/python/pyspark」即spark的安裝目錄下的pyspark

將pyspark整個複製到已安裝的python2.7的site-packages目錄下,預設路徑為「anaconda3/envs/python2/lib/python2.7/site-packages/」

jupyter的安裝非常簡單,只需要

sudo pip install jupyter
但是需要注意的是,在安裝之前一定要使用「python」在命令列中確認一下目前的環境是否為你要操作的python環境,例如python2.7

如果不是可以使用

source activate python2
切換

按照下面內容新增環境變數/etc/profile

export spark_home=/opt/cloudera/parcels/cdh-5.10.2-1.cdh5.10.2.p0.5/lib/spark  # spark安裝目錄

export pythonpath=$spark_home/python/:$pythonpath #pythonpath指向spark目錄下的python資料夾

export pyspark_python=python2 #使用python2

export pyspark_driver_python=jupyter

export pyspark_driver_python_opts="notebook --no-browser --ip=0.0.0.0 --port=8888 --allow-root"

讓環境變數生效

source /etc/profile
這樣,只需要在命令列中啟動pyspark,就可以遠端編寫pyspark**了。

Jupyter開發環境搭建

小書匠 kindle 目錄 jupyter notebook是一款開放源 的web應用程式,允許您建立和共享包含實時 方程式,視覺化和敘述文字的文件。用途包括 資料清理和轉換,數值模擬,統計建模,資料視覺化,機器學習等等。翻譯自jupyter官網 2.1檢查你的python版本一般在linux上直接...

Jupyter的搭建和使用

在安裝python3後,由於系統原裝的是python2,且執行python命令後預設的軟連線是指向了python2 如果我想要使用python3的直譯器,則可以 因為anaconda中jupyter預設就已經安裝了,所以這裡就不需要安裝,但如果python用的不是anaconda,則需要安裝jupy...

用阿里雲搭建遠端jupyter

整個過程充滿了坑 雲伺服器ecs 網路與安全 安全組 配置規則 jupyter notebook generate config 非root使用者選擇此條 jupyter notebook generate config allow config root使用者選擇此條 writing defaul...