資料採集平台 教程 單頁面採集

2022-04-11 11:27:00 字數 1186 閱讀 8191

測試版

開啟「配置中心」 > 「新建爬蟲」 > 「單頁面型別」 選單,進入爬蟲配置介面:

基本配置:

項是否必填

說明示例

爬蟲名字

是任意字元,不可與以有的爬蟲名稱重複

採集源是

採集的**名稱

源頁面是

要採集的源鏈結,必須為規範的url

匹配開頭

是以該值開頭的鏈結才會被採集

最大採集量

是單個爬蟲最大支援採集量為10000

500執行緒數

是乙個爬蟲所啟用的執行緒數,最大值為3

1允許js

否啟用js可以採集動態網頁,但是採集速度將會變慢,預設不啟用

不啟用描述

否任意值,對爬蟲的表述

基本配置完成後,點選「下一步」進行採集規則配置。

配置規則:

項是否必填

說明示例

欄位code

是採集字段唯一標識,同乙個爬蟲中的字段code不可重複

title

字段標題

是採集欄位唯的名稱

文章標題

採集規則

是採集規則,使用css選擇器,很重要。

.div > .title

採集型別

是text:採集文字內容,html:採集html內容,attr:採集屬性值,當選擇attr時,下面的屬性值必填

text

屬性值否

當採集型別為attr時必填,其他情況不填

href

非空字段

否是否為非空字段,若是,則當該字段為空時,資料將不會被儲存

否去重欄位

否是否是去重欄位,若是則會更具該欄位進行去重,重複的資料將不會被儲存

採集規則配置說明:

目前使用css選擇器的方式來定位html元素,所以可以使用瀏覽器自帶的檢查元素功能來快速找到css選擇器路徑(以谷歌瀏覽器為例)

比例如需要採集csdn部落格首頁的文章:

然後瀏覽器自動定位到所選元素,再右鍵「copy」 -> 「copy selector」

在將複製的內容貼上到「採集規則」輸入框即可。

配置完成

採集規則配置完成後,點選「下一步」,選擇「儲存」或者「啟動爬蟲」。「儲存」將不會啟動爬蟲,需要在「資料採集」 > 「狀態管理」 中找到剛配置的爬蟲,點選「啟動」。

C 採集頁面資料

using htmlagilitypack using nito.asyncex using system using system.diagnostics using system.io using system.io.compression using system.net using syst...

剖析大資料平台的資料採集

我在一次社群活動中做過一次分享,演講題目為 大資料平台架構技術選型與場景運用 在演講中,我主要分析了大資料平台架構的生態環境,並主要以資料來源 資料採集 資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平台的理解。本文講解資料採集部分。資料採集的設計,幾...

大資料 資料採集平台之Scribe

apache flume 詳情請看文章 大資料 資料採集平台之apache flume fluentd 詳情請看文章 大資料 資料採集平台之fluentd logstash 詳情請看文章 大資料 資料採集平台之logstash apache chukwa 詳情請看文章 大資料 資料採集平台之apac...