爬蟲重點回顧

2021-10-05 18:14:27 字數 2343 閱讀 9915

閱讀網頁和解碼

1 建立請求

2 開啟目標網頁

3 閱讀網頁

4 解碼

5 找關鍵**分析**

6 根據規律使用正規表示式

7 檔案讀寫

請求的時候,可以使用預設的request請求

當然也可以自定義請求物件:

——request.request()

在自定義的請求物件中可以加入請求頭

請求頭的作用是反爬蟲,模擬不同的瀏覽器對資料進行訪問

#構造 請求頭資訊

header =

# print(header)

#自定義請求物件

req = request.request(url,headers=header)

#請求頁面,並儲存本地,解碼

reponse = request.urlopen(req)

當然也可以構造請求頭列表:

useragent =[,

,,,,

'mozilla/5.0 (windows nt 6.1; wow64; rv:34.0) gecko/20100101 firefox/34.0',,

,,'mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; .net4.0c; .net4.0e; lbbrowser) '

,'mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; .net4.0c; .net4.0e; qqbrowser/7.0.3698.400)',,

,,,,

,];agent = random.choice(useragent)

print

(agent)

header =

#自定義請求物件

req = request.request(url,headers=header)

可以使用urllib庫request模組自帶的方法開啟:

#請求頁面

reponse = urllib.request.urlopen(req)

也可以自定義乙個開啟方式(自定義乙個opener物件)

常見的有:

1、構建http處理器物件(專門處理http請求的物件)

2、構建**處理器物件(**ip)

使用http處理器物件:
from urllib import request

#構建http處理器物件(專門處理http請求的物件)

)#建立乙個自定義opener物件

#請求頁面

reponse = opener.

open

(req)

構建**處理器物件 :
#建立請求物件

req = request.request(

"")proxylist =[,

]#ip 位址可能不能使用

proxy = random.choice(proxylist)

#構建**處理器物件

proxyhandler = request.proxyhandler(proxy)

#必須使用自定義的opener

opener = request.build_opener(proxyhandler)

#開啟**

res = opener.

open

(req)

.read(

)

注意:可以將opener設定為全域性物件
#把自定義的opener設定為全域性,這樣用  urlopen發  送的請求也會使用自定義的opener

request.install_opener(opener)

reponse = request.urlopen(req)

reponse.read(

).decode(

)

STL重點回顧

1.兩級空間配置器 2.vector 是個動態陣列,隨著元素的加入,它的內部機制能夠自行的擴充空間容納新元素 但是當使用insert和erase時會出現迭代器失效問題 他們的建立和銷毀都是用construct和destory函式 因為vector是連續儲存的,所以erase時,會呼叫泛型函式copy...

NA重點回顧

arp位址解析協議 arp的分類 正向arp 逆向arp arp 無故arp。作用 1 正向arp 知道對方的ip不知道對方的mac位址時,傳送arp,獲取對方的mac位址 2 逆向arp 知對方的mac不知道ip,獲取對方的ip 2 無故arp 往外公布自己的mac,和防止位址重複。3 arp 向...

html重點回顧

src alt 乙隻恐龍頭部和軀幹的骨架,它有乙個巨大的頭,長著鋒利的牙齒。width 400 height 341 曼徹斯特大學博物館展出的乙隻霸王龍的化石figcaption figure html5 的和元素,它正是為此而被創造出來的 為提供乙個語義容器,在標題和之間建立清晰的關聯 這個元素 ...