資料爬蟲一

2021-08-21 04:48:07 字數 1334 閱讀 1776

資料爬蟲(一):爬蟲的基本原理介紹

通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器響應。

獲取響應內容:

解析內容:

得到的內容可能是html,可以用正規表示式、網頁解析庫進行解析。可能是json,可以直接轉為json物件解析,可能是二進位制資料,可以做儲存或者進一步的處理。

儲存資料:

儲存形式多樣,可以存為文字,也可以儲存至資料庫,或者儲存特定格式的檔案。

瀏覽器就傳送訊息給該**所在的伺服器,這個過程叫做http request。

response:

伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。

主要有get、post兩種型別,另外還有head、put、delete、options等。

請求url:

請求頭:

包含請求時的頭部資訊,如user-agent、host、cookies等資訊。

請求體:

請求時額外攜帶的資料如表單提交時的表單資料

有多種響應狀態,如200代表成功、301跳轉、404找不到頁面、502伺服器錯誤

響應頭:

如內容型別、內容長度、伺服器資訊、設定cookie等等。

響應體:

最主要的部分,包含了請求資源的內容,如網頁html、二進位制資料等。

如html文件、json格式文字等。

:獲取到的是二進位制檔案,儲存為格式。

and so on:

只要是能請求到的,都能獲取。

json解析

正規表示式

beautifulsoup

pyquery

xpath

網頁文字:如html文件、json格式文字等。

:獲取到的是二進位制檔案,儲存為格式。

and so on:只要是能請求到的,都能獲取。

七、解析方式

直接處理

json解析

正規表示式

beautifulsoup

pyquery

xpath

純文字、json、xml等。

關係型資料庫:

如mysql、oracle、sql server等具有結構化表結構形式儲存。

非關係型資料庫:

如mongodb、redis等key-value形式儲存。

二進位制檔案:

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...

爬蟲 一 爬蟲簡介

很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...

爬蟲資料之爬蟲流程

多頁面爬蟲流程 有的網頁存在多頁的情況,每頁的網頁結構都相同或類似,這種型別的網頁爬蟲流 程為 手動翻頁並觀察各網頁的url 構成特點,構造出所有頁面的url 存入列表中。根據url 列表依次迴圈取出url 定義爬蟲函式。迴圈呼叫爬蟲函式,儲存資料。迴圈完畢,結束爬蟲程式 跨頁面爬蟲流程 定義爬取函...