學習使用大資料資料採集工具(python)

2021-09-12 10:23:24 字數 2603 閱讀 3645

1、神箭手雲爬蟲

官網:

簡介:神箭手雲是乙個大資料應用開發平台,為開發者提供成套的資料採集、資料分析和機器學習開發工具,為企業提供專業化的資料抓取、資料實時監控和資料分析服務。 

優點:功能強大,涉及雲爬蟲、api、機器學習、資料清洗、資料**、資料訂製和私有化部署等;

純雲端執行,跨系統操作無壓力,隱私保護,可隱藏使用者ip。

提供雲爬蟲市場,零基礎使用者可直接呼叫開發好的爬蟲,開發者基於官方的雲端開發環境開發並上傳**自己的爬蟲程式;         

領先的反爬技術,例如直接接入**ip和自動登入驗證碼識別等,全程自動化無需人工參與; 

豐富的發布介面,採集結果以豐富**化形式展現; 

缺點:它的優點同時也在一定程度上成了它的缺點,因為它是乙個面向開發者的爬蟲開發系統,提供了豐富的開發功能,**看起來非常的偏技術非常專業,儘管官方也提供了雲爬蟲市場這樣的現成爬蟲產品,並且開放給廣大爬蟲開發者,從而讓爬蟲市場的內容更加豐富,但是對於零技術基礎的使用者而言並不是那麼容易理解,所以有一定的使用門檻。

是否免費:免費使用者無採集功能和匯出限制,無需積分。

具備開發能力的使用者可以自行開發爬蟲,達到免費效果,沒有開發能力的使用者需要從爬蟲市場尋找是否有免費的爬蟲。

2、火車頭採集器:

官網:

簡介:火車採集器是一款網頁資料抓取、處理、分析,挖掘軟體。可以靈活迅速地抓取網頁上散亂分布的資訊,並通過強大的處理功能準確挖掘出所需資料。

優點:國內老牌的採集器,經過多年的積累,具有豐富的採集功能;

採集速度比較快,介面比較齊全,支援php和c#外掛程式擴充套件;

支援多種資料格式匯出,可以進行資料替換等處理。

缺點:越是年頭長的產品越容易陷入自己的固有經驗中,火車頭也難以擺脫這問題。

雖說功能豐富,但是功能都堆砌在那裡,使用者體驗不好,讓人不知道從何下手;

學會了的人會覺得功能強大,但是對於新手而言有一定使用門檻,不學習一段時間很難上手,零基礎上手基本不可能。

只支援windows版本,不支援其他作業系統;

是否免費:號稱免費,但是實際上免費功能限制很多,只能匯出單個txt或html檔案,基本上可以說是不免費的。 

3、八爪魚採集器:

官網:

簡介:八爪魚採集器是一款視覺化採集器,內建採集模板,支援各種網頁資料採集。

優點:支援自定義模式,視覺化採集操作,容易上手;

支援簡易採集模式,提供官方採集模板,支援雲採集操作;

支援防遮蔽措施,例如**ip切換和驗證碼服務;

支援多種資料格式匯出。

缺點:功能使用門檻較高,本地採集時很多功能受限,而雲採集收費較高;

採集速度較慢,很多操作都要卡一下,雲端採集說10倍提速但是並不明顯;

只支援windows版本,不支援其他作業系統。

是否免費:號稱免費,但是實際上匯出資料需要積分,可以做任務攢積分,但是正常情況下基本都需要購買積分。

4、后羿採集器:

官網:

簡介:后羿採集器是由前谷歌搜尋技術團隊基於人工智慧技術研發的新一代網頁採集軟體,該軟體功能強大,操作極其簡單。

支援流程圖模式,視覺化操作流程,能夠通過簡單的操作生成各種複雜的採集規則;

支援防遮蔽措施,例如**ip切換等;

支援多種資料格式匯出;

支援定時採集和自動化發布,發布介面豐富;

支援windows、mac和linux版本。

缺點:軟體推出時間不長,部分功能還在繼續完善,暫不支援雲採集功能

是否免費:完全免費,採集資料和手動匯出採集結果都沒有任何限制,不需要積分。

八爪魚實驗截圖如下:

匯出資料如下:

剖析大資料平台的資料採集

我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...

大資料 資料採集平台之Scribe

apache flume 詳情請看文章 大資料 資料採集平台之apache flume fluentd 詳情請看文章 大資料 資料採集平台之fluentd logstash 詳情請看文章 大資料 資料採集平台之logstash apache chukwa 詳情請看文章 大資料 資料採集平台之apac...

大資料之資料採集引擎flum

flume的安裝非常簡單,只需要解壓的tar.gz的包後,就可以啟動 大資料之資料採集引擎flum flum是用來採集檔案的比如.log檔案,也可以指定乙個目錄 flum由三個元件組成,分別是 source channel sink source元件是用來採集日誌 channel元件是用來緩衝日誌的...