大資料python包mrjob的血淚史

2021-10-10 18:40:42 字數 400 閱讀 4288

大資料平台執行mrjob,發現無法建立hdfs資料夾,卡住了,嗚嗚嗚~~~

啊啊啊啊啊啊啊啊啊

通過如下的hadoop命令檢視使用者

hdfs dfs -ls /user

裡面有自己的使用者名稱啊,可是

可是為什麼hdfs dfs -ls /user/使用者名稱/input不行呢?

後面發現是虛擬機器環境建立的/user/使用者名稱,它不是乙個真實的directory

所以正確的做法是先刪掉虛擬的/user/使用者名稱

hdfs dfs -rmdir /user/使用者名稱

然後再自己新建乙個

hdfs dfs -mkdir /user/使用者名稱

就可以了

現在執行python2 wc.py -r hadoop hdfs:/ 就成功了!

Python處理大資料

起因 python處理一下資料,大概有六七個g,然後再存到另外乙個檔案中,單執行緒跑起來發現太慢了,資料總量大概是千萬行的級別,然後每秒鐘只能處理不到20行 遂想怎麼提高一下速度 嘗試1 multiprocessing 如下 from multiprocessing.dummy import poo...

Python五大資料分析工具包

matplotlib matplotlib是python的乙個視覺化模組,他能方便的只做線條圖 餅圖 柱狀圖以及其他專業圖形。使用matplotlib,可以定製所做圖表的任一方面。他支援所有作業系統下不同的gui後端,並且可以將圖形輸出為常見的向量圖和圖形測試,如pdf svg jpg png bm...

大資料 Python資料爬取

xpath語法 二 xpath選擇器 爬取從頁面提取的url scrapy的item模組 將爬取資料儲存到檔案中 爬取動態網頁 反爬蟲 爬蟲的反反爬策略 user agent介紹 cookie的介紹 檢視cookie 使用cookie使爬蟲突破登入限制 網路資料採集模型 pyspider爬蟲框架 s...