使用Python實現Map Reduce程式

2021-09-07 15:24:27 字數 468 閱讀 6566

使用python實現map reduce程式

起因想處理一些較大的檔案,單機執行效率太低,多執行緒也達不到要求,最終採用了集群的處理方式。

詳細的討論可以在v2ex上看一下。

步驟

hadoop jar contrib/streaming/hadoop-streaming-1.1.2.jar   

-reducer /usr/local/hadoop/reducer.py

-input book/*

-output book-output

程式例項
import sys

for line in sys.stdin:

print line

import sys

for line in sys.stdin:

print line

參考

python利用多核CPU實現mapreduce

1.最近公司用有個比較奇怪的需求,需要在流水中查詢某一條符合條件的流水記錄,記錄是在hdfs上的,按天存在檔案中,但是檔案都比較大,每天大概是25g的流水資料,現在提供刷卡回執單去查詢該消費記錄在我們hdfs上的對應的記錄,從而可以找到某個資訊 不能說是哪個。2.刷卡回執單我們可以找到卡號前6位 後...

python使用peewee實現mysql資料操作

peewee可用class來建立表,增刪改查,應該是相對餘單錶 本人幾乎沒用過,自以為如此 想實現sql查詢,得到list,比如這樣的結果 但是查詢結果是全是資料 元組 且找不到列名,後dir後逐個嘗試發現列名可以使用result.description j 0 獲取 元組使用起來不方便,現實現將資...

使用python實現簡單爬蟲

近日學習了python語言,簡單實現了乙個爬蟲,爬取了慕課網課程簡介上的,並儲存到本地。以下是實驗 coding utf 8 spyder editor import re import os import urllib.request 在python3.6環境中實現 f soure urllib....