爬蟲的流程

模擬瀏覽器開啟網頁，獲取瀏覽器的資料（爬蟲者想要的資料）；

瀏覽器開啟網頁的過程：當你在通過瀏覽器訪問乙個鏈結後，經過dns伺服器找到伺服器ip，向伺服器傳送乙個request；伺服器經過解析後，給出乙個response（可以是html、js、css等檔案內容），瀏覽器（本質：編譯器）解析渲染後，顯示網頁內容；

1.請求目標鏈結

發起乙個帶有header、請求引數等資訊的request，等待伺服器響應；

2.獲取響應內容

3.解析內容

得到的內容可能是html,可以用正規表示式，頁面解析庫進行解析；可能是json字串,可以直接轉換為json物件解析，可能是二進位制資料，可以做儲存或者進一步的處理……

4.儲存資料

儲存形式多樣，可以存為文字，也可以儲存到資料庫，或者存為特定格式的檔案；

request一般的請求方式：get/port兩種常見型別，還有：head/put/delete/options

get - 從指定的資源請求資料。

post - 向指定的資源提交要被處理的資料

get請求的注意點：

get 請求可被快取

get 請求保留在瀏覽器歷史記錄中

get 請求可被收藏為書籤

get 請求不應在處理敏感資料時使用

get 請求有長度限制

get 請求只應當用於取回資料

url簡單說明：

url的格式由三個部分組成：

第一部分是協議(或稱為服務方式)；

第二部分是存有該資源的主機ip位址(有時也包括埠號)；

第三部分是主機資源的具體位址，如目錄和檔名等；

爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料，因此，它是爬蟲獲取資料的基本依據；

直接處理

json解析

正規表示式處理

beautifulsoup解析處理

pyquery解析處理

xpath解析處理

爬蟲學習爬蟲基本流程

標籤空格分隔資料探勘爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別請求的引數包含的部...

爬蟲資料之爬蟲流程

多頁面爬蟲流程有的網頁存在多頁的情況，每頁的網頁結構都相同或類似，這種型別的網頁爬蟲流程為手動翻頁並觀察各網頁的url 構成特點，構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式，儲存資料。迴圈完畢，結束爬蟲程式跨頁面爬蟲流程定義爬取函...

爬蟲主要流程

第一種方法 response1 urllib2.urlopen url print response1.getcode 請求狀態碼 print len response1.read read爬取網頁資訊 print 第二種方法,新增頭部資訊，模擬瀏覽器訪問 request urllib2.reque...

爬蟲的流程

爬蟲學習 爬蟲基本流程

爬蟲資料之爬蟲流程

爬蟲主要流程

相關推薦

爬蟲學習爬蟲基本流程