初識網路爬蟲

1.什麼是爬蟲？爬蟲能幹什麼？

爬蟲又稱為網路爬蟲。可以按照指定的規則爬取網路上的資訊。

2.網路爬蟲的分類:

通用網路爬蟲

聚焦網路爬蟲

增量式網路爬蟲

深層網路爬蟲等型別

3.深層網路爬蟲

深層網路爬蟲主要通過6個基本功能的模組和2個爬蟲內部資料結構

6個基本功能的模組:

爬行控制器

解析器表單分析器

表單處理器

響應分析器

lvs控制器

2個爬蟲內部資料結構：

url列表

lvs表 (表示標籤/數值集合)，用來填充表單的資料來源

4.網路爬蟲的基本原理

工作流程：

①獲取初始的url，該url位址是使用者自己制定的廚師爬取的網頁

②爬取對應url位址的網頁時，獲取新的url位址

③將新的url位址放入url佇列中

④從url佇列中讀取新的url，然後依據新的url爬取網頁，同時從新的網頁中獲取新的url位址，重複上述的爬取過程。

⑤設定停止條件，如果沒有位置停止條件時，爬蟲會一直爬取下去，知道無法獲取新的url位址為止，設定了停止條件後，爬蟲將會在滿足停止條件時停止爬取

流程圖：

爬蟲爬蟲初識

網路爬蟲又被稱為網頁蜘蛛，網路機械人是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼，通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料。發起請求通過http庫向目標站點發起請求，也就是傳送乙個request，請求可以包含額外的header等資訊，等待伺服器...

爬蟲（一）初識爬蟲

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做爬蟲的工作流程 robots協議通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是...

Python爬蟲初識爬蟲

模擬瀏覽器開啟網頁，獲取網頁中我們想要的那部分資料瀏覽器開啟網頁的過程當你在瀏覽器中輸入位址後，經過dns伺服器找到伺服器主機，向伺服器傳送乙個請求，伺服器經過解析後傳送給使用者瀏覽器結果，包括html,js,css等檔案內容，瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果瀏覽器傳送訊息給...

初識網路爬蟲

爬蟲 爬蟲初識

爬蟲（一）初識爬蟲

Python爬蟲 初識爬蟲

相關推薦

爬蟲爬蟲初識

Python爬蟲初識爬蟲