網頁爬蟲知識點總結

2021-10-19 08:16:56 字數 2152 閱讀 9244

1.什麼是爬蟲?

爬蟲就是:模擬瀏覽器傳送請求,獲取響應
2.爬蟲的分類,爬蟲的流程

通用爬蟲:搜尋引擎的爬蟲

3.瀏覽器傳送請求的過程

爬蟲獲取的內容和elements內容不一樣,進行資料提取的時候,需要根據url位址對應的響應為準進行資料的提取

4.http的請求頭user-agent有什麼用

5.利用requests模板如何傳送請求和獲取響應

response.content -> bytes

response.status_code

response.request.headers

response.headers

一般來說名詞,往往都是物件的屬性,對應的動詞是物件的方法

獲取網頁原始碼的通用方式:

response.content.decode() 的方式獲取響應的html頁面

response.content.decode(「gbk」)

response.text

6.常見的狀態響應碼 二、

1.requests中headers如何使用,如何傳送帶headers的請求

2.傳送帶引數的請求

params =

url_temp = 「不完整的url位址」

requests.get(url_temp,params=params)

3.requests如何傳送post請求

data =

requests.post(url,data=data)

4.requests中如何使用**,使用**的目的,**的分類

**的分類

5.requests中session類如何使用,為什麼要使用session 三、

1.requests進行攜帶cookie登入

2.尋找登入介面的方法

通過抓包,定位url位址

3.分析js,獲取加密的資料

進行分析

執行js

4.requests處理ssl證書

requests.get(url,verify=false)
5.獲取響應中的cookie,轉化為字典

response = requests.get(url,headers=headers)

requests.utils.dict_from_cookiejar(response.cookies)

5.資料的分類

非結構化資料 html

8.json模組的使用

9.requests模擬登陸的三種方法

cookie方法headers中

cookie傳遞給cookies引數

10.三元運算子

a = 10 if  3<2 else 100
11.字典推導式

12345

四、

1.正則的語法

預定義的字符集

數量詞

? 能夠匹配0-1次,讓*,+非貪婪

2.re模組的常用方法

注:re.s 匹配\n re.dotall 匹配tab鍵

3.原始字串r

4.xpath語法

@ 的使用

text() 的使用

xpath包含的語法

兄弟標籤

xpath 選擇特定位置

5.lxml模組的使用

from lxml import etree

element = etree.html(bytes/str) #返回element

ret_list = element.xpath("xpath字串") #返回列表

bytes = etree.tostring(element) #返回bytes型別字串

#資料提取時:先分組,再提取

12345

五、

1.xpath包含的語法

2.url位址解碼的方法

3.準備url位址

4.多執行緒爬蟲

佇列 5.多程序爬蟲

from multiprocessing import joinablequeue

Python爬蟲知識點總結

模擬瀏覽器傳送請求,獲取響應 需要根據url位址對應的響應為準進行資料的提取 response.content bytes python3 的分類 高匿名 不知道在使用 匿名 知道在使用 不知道真實ip 透明 對方知道真實的ip if 條件成立,if前面的結果賦值給to,否則else後面的結果賦值給...

爬蟲知識點(xpath)

xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...

爬蟲須知知識點

uri 統一資源標誌符,url 統一資源定位符。關係 url是uri的子集。3.超文字可以理解為網頁的源 http 超文字傳輸協議,用於從網路傳輸超文字資料到本地瀏覽器的傳送協議。優點 高效而準確。https http的安全版,安全基礎是ssl,傳輸內容經過ssl加密。請求方法 get和post g...