GO寫網路爬蟲 單任務版架構設計

2021-09-12 19:46:39 字數 595 閱讀 1905

說是架構設計,但是爬蟲框架大同小異,這裡也是說明一下原理,把之前做的一些功能給模組化到架構中。

先上個圖吧

這就是引擎中各元件的任務職能,各施其職發揮出種元件的特點:

1、種子就是原始url沒什麼好說明的

2、爬蟲引擎

對爬蟲種子或其它任務進行排程

3、網頁獲取器

主要任務是對網頁內容進行讀取,包括網頁編碼解析及轉碼等工作

4、解析器

對網頁內容進行解析,如何解析是要自己開發邏輯解析器的,這個解析是在建立種子或子任務時明確指定的

5、任務佇列

儲存要爬取的任務

根據上述內容,框架設計出如下幾個模組:

框架功能詳細說明:

python寫網路爬蟲

注 本文旨在練習正規表示式的簡單使用方法 usr bin evn python coding cp936 def gethtml url 定義gethtml 函式,用來獲取頁面源 page urllib.urlopen url urlopen 根據url來獲取頁面源 html page.read 從...

GO 併發的網路爬蟲

第一頁 ie utf 8 pn 0 第二頁 ie utf 8 pn 50 第三頁 ie utf 8 pn 100 整體提取的思路 1 先拿位址 2 爬 3 取 4 存 讀取網頁的body內容 buf make byte,4 1024 fortrue else result string buf n ...

學習python寫網路爬蟲(一)

最簡單的爬蟲 import urllib2 defdownload url return urllib2.urlopen url read print download 更加健壯的版本,可以捕獲異常了 import urllib2 defdownload url print downloading ...