第一天 什麼是網路爬蟲

2022-09-13 03:00:16 字數 1221 閱讀 7371

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲的基本流程

使用者獲取網路資料的方式:

方式2:模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中

爬蟲要做的就是方式2;

1、發起請求

使用http庫向目標站點發起請求,即傳送乙個request

request包含:請求頭、請求體等

request模組缺陷:不能執行js 和css **

2.獲取響應內容

如果伺服器能正常響應,則會得到乙個response

3.解析內容

解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等

解析json資料:json模組

解析二進位制資料:以wb的方式寫入檔案

4.儲存資料

資料庫(mysql,mongdb、redis)

檔案request

1.什麼是request?

伺服器收到瀏覽器傳送的資訊後,能夠根據瀏覽器傳送資訊的內容,做出相應的處理,然後把訊息回傳給瀏覽器,這個過程就叫做 http response 。

2.response中包含什麼?

舉例

執行成功後我們看到列印出來的 html 源**200 狀態碼了。基本實現了爬蟲的 request 和 response 過程。

能抓到什麼樣的資料?

網頁文字:如 html 文件, ajax載入的 json 格式文字等;

其他你只要能夠請求到的,都是可以獲取。

舉例

解析方式有哪些?

網路第一天

交換協議 vlan技術 虛擬區域網,是指在交換區域網的基礎上,採用網路管理軟體構建的可跨越不同網段 不同網路的端到端的邏輯網路。乙個vlan組成乙個邏輯子網,即乙個邏輯廣播域,它可以覆蓋多個網路裝置,允許處於不同地理位置的網路使用者加入到乙個邏輯子網中。stp技術 生成樹協議,可應用於計算機網路中樹...

爬蟲小試第一天

第乙個遇到的問題時編碼的問題 data u5468 u6069 u5e73 print data.encode utf 8 print data.decode utf 8 print data.decode unicode escape print u u5468 u6069 u5e73 輸出的結果...

爬蟲第一天(1)

import urllib2 發請求的模組 base url 定義url 執行urlopen方法,傳入乙個url,返回乙個response物件 response urllib2.urlopen base url,timeout 60 data 有資料傳送是post請求,沒有則是get timeout...