資料爬蟲一

資料爬蟲（一）：爬蟲的基本原理介紹

通過http庫向目標站點發起請求，即傳送乙個request，請求可以包含額外的headers等資訊，等待伺服器響應。

獲取響應內容：

解析內容：

得到的內容可能是html，可以用正規表示式、網頁解析庫進行解析。可能是json，可以直接轉為json物件解析，可能是二進位制資料，可以做儲存或者進一步的處理。

儲存資料：

儲存形式多樣，可以存為文字，也可以儲存至資料庫，或者儲存特定格式的檔案。

瀏覽器就傳送訊息給該**所在的伺服器，這個過程叫做http request。

response:

伺服器收到瀏覽器傳送的訊息後，能夠根據瀏覽器傳送訊息的內容，做相應處理，然後把訊息回傳給瀏覽器。這個過程叫做http response。瀏覽器收到伺服器的response資訊後，會對資訊進行相應處理，然後展示。

主要有get、post兩種型別，另外還有head、put、delete、options等。

請求url：

請求頭：

包含請求時的頭部資訊，如user-agent、host、cookies等資訊。

請求體：

請求時額外攜帶的資料如表單提交時的表單資料

有多種響應狀態，如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤

響應頭：

如內容型別、內容長度、伺服器資訊、設定cookie等等。

響應體：

最主要的部分，包含了請求資源的內容，如網頁html、二進位制資料等。

如html文件、json格式文字等。

:獲取到的是二進位制檔案，儲存為格式。

and so on:

只要是能請求到的，都能獲取。

json解析

正規表示式

beautifulsoup

pyquery

xpath

網頁文字:如html文件、json格式文字等。

:獲取到的是二進位制檔案，儲存為格式。

and so on:只要是能請求到的，都能獲取。

七、解析方式

直接處理

json解析

正規表示式

beautifulsoup

pyquery

xpath

純文字、json、xml等。

關係型資料庫：

如mysql、oracle、sql server等具有結構化表結構形式儲存。

非關係型資料庫：

如mongodb、redis等key-value形式儲存。

二進位制檔案：

爬蟲（一）初識爬蟲

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做爬蟲的工作流程 robots協議通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是...

爬蟲一爬蟲簡介

很多人都將網際網路比喻成一張非常大的網，將世界連線起來。如果說網際網路是一張網，那麼爬蟲就像在網上爬的小蟲子，通過網頁的鏈結位址來尋找網頁，通過特定的搜尋演算法來確定路線，通常從的某乙個頁面開始，讀取該網頁的內容，找到該網頁中的其他鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，就這樣一直迴圈下去，...

爬蟲資料之爬蟲流程

多頁面爬蟲流程有的網頁存在多頁的情況，每頁的網頁結構都相同或類似，這種型別的網頁爬蟲流程為手動翻頁並觀察各網頁的url 構成特點，構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式，儲存資料。迴圈完畢，結束爬蟲程式跨頁面爬蟲流程定義爬取函...

資料爬蟲一

爬蟲（一）初識爬蟲

爬蟲 一 爬蟲簡介

爬蟲資料之爬蟲流程

相關推薦

爬蟲一爬蟲簡介