基礎爬蟲系列課程授課內容0 爬蟲的基本原理

2021-10-17 06:43:36 字數 2048 閱讀 5234

什麼是爬蟲?

簡單地說,爬蟲就是請求**並提取資料的一種自動化程式。

爬蟲的基本流程:

1、向伺服器發起請求

通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器的響應。

2、獲取響應內容

得到的內容可能是html,可以用正規表示式、網頁解析庫進行解析。可能是json,可以直接轉成josn物件進行解析,可能是二進位制資料,可以儲存或者進一步處理。

4、儲存內容

儲存形式多樣,可以儲存成文字,也可以儲存至資料庫,或者儲存成特定格式的檔案。

小白疑問:

什麼是response和request ?

request中包含哪些內容?

1、請求方式

主要是get、post兩種型別,另外還有head、put、delete、options等。

2、請求url

包含請求時的頭部資訊,如user-agent、host、cookies等資訊。

4、請求體

請求時額外攜帶的資料,如表單提交時的表單資料。

response中包含哪些內容?

1、響應狀態

有多種響應狀態,如200代表成功,301代表跳轉,404代表找不到頁面,502代表伺服器錯誤等。

2、響應頭

如內容型別、內容長度、伺服器資訊、設定cookies等等。

3、響應體

from fake_useragent import useragent

import requests

ua=useragent(

)#請求的**

url=

""#請求頭

headers=

#請求**

response=requests.get(url=url,headers=headers)

#響應體內容

print

(response.text)

#響應狀態資訊

print

(response.status_code)

#響應頭資訊

print

(response.headers)

爬蟲能抓到什麼樣的資料呢?1、網頁文字如html文件、json格式文字等。

2、檔案

)常見的解析的方式:

為什麼我們抓到的有時候和瀏覽器看到的不一樣呢?

有時候,網頁返回是js動態載入的,直接用請求庫訪問獲取到的是js**,不是渲染後的結果。

最後怎樣儲存資料呢?

爬蟲 反爬蟲 系列一 基礎之模擬請求 2

基礎之模擬請求 2 在開發爬蟲程式前,你應該知道你需要的資料來自哪兒,以及怎麼獲取。為了更快的做到這一點,需要對http請求進行模擬進行驗證。以下是我常用的幾種方式,基本上是足夠用了。以南方航空官網為例,假如我想爬南航的機票航班資訊,那麼我會先用瀏覽器除錯一番。瀏覽器除錯 用火狐瀏覽器開啟南航官網,...

python 0基礎學習筆記14 爬蟲

爬取網頁 import urllib.request 向指定的url位址發起請求,並返回伺服器響應的資料 檔案物件 response urllib.request.urlopen 讀取檔案的全部內容,會把讀取到的資料賦值給乙個字串變數 data response.read decode utf 8 ...

WS00 網路爬蟲課程內容導學

20年的疫情,遇上考研調劑,各種不確定性,搞得自己很煩躁,那個時候就想著找個事情做一做。朋友圈太多的python廣告,不得不走進python折騰一番,當時過了一遍,但是,最近感覺學了之後沒有將其應用到生活當中去,就決心整理下筆記,達到鞏固目的。本文是基於python網路爬蟲與資訊提取 mooc 學習...