爬蟲的流程

2021-10-22 12:12:57 字數 964 閱讀 6521

模擬瀏覽器開啟網頁,獲取瀏覽器的資料(爬蟲者想要的資料);

瀏覽器開啟網頁的過程:當你在通過瀏覽器訪問乙個鏈結後,經過dns伺服器找到伺服器ip,向伺服器傳送乙個request;伺服器經過解析後,給出乙個response(可以是html、js、css等檔案內容),瀏覽器(本質:編譯器)解析渲染後,顯示網頁內容;

1.請求目標鏈結

發起乙個帶有header、請求引數等資訊的request,等待伺服器響應;

2.獲取響應內容

3.解析內容

得到的內容可能是html,可以用正規表示式,頁面解析庫進行解析;可能是json字串,可以直接轉換為json物件解析,可能是二進位制資料,可以做儲存或者進一步的處理……

4.儲存資料

儲存形式多樣,可以存為文字,也可以儲存到資料庫,或者存為特定格式的檔案;

request一般的請求方式:get/port兩種常見型別,還有:head/put/delete/options

get - 從指定的資源請求資料。

post - 向指定的資源提交要被處理的資料

get請求的注意點:

get 請求可被快取

get 請求保留在瀏覽器歷史記錄中

get 請求可被收藏為書籤

get 請求不應在處理敏感資料時使用

get 請求有長度限制

get 請求只應當用於取回資料

url簡單說明:

url的格式由三個部分組成:

第一部分是協議(或稱為服務方式);

第二部分是存有該資源的主機ip位址(有時也包括埠號);

第三部分是主機資源的具體位址,如目錄和檔名等;

爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料,因此,它是爬蟲獲取資料的基本依據;

直接處理

json解析

正規表示式處理

beautifulsoup解析處理

pyquery解析處理

xpath解析處理

爬蟲學習 爬蟲基本流程

標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...

爬蟲資料之爬蟲流程

多頁面爬蟲流程 有的網頁存在多頁的情況,每頁的網頁結構都相同或類似,這種型別的網頁爬蟲流 程為 手動翻頁並觀察各網頁的url 構成特點,構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式,儲存資料。迴圈完畢,結束爬蟲程式 跨頁面爬蟲流程 定義爬取函...

爬蟲主要流程

第一種方法 response1 urllib2.urlopen url print response1.getcode 請求狀態碼 print len response1.read read爬取網頁資訊 print 第二種方法,新增頭部資訊,模擬瀏覽器訪問 request urllib2.reque...