Python3 爬蟲之urllib庫的使用

2021-08-14 11:17:03 字數 1329 閱讀 8312

廢話不多說直接上**,感興趣的小夥伴,可以開啟注釋測試哦。

import urllib.request

url = ''

response = urllib.request.urlopen(url=url) #第乙個引數是要開啟的url 第二個是data表示post請求時 使用的

# print(type(response)) #返回的是乙個httpresponse物件

# print(response.read()) #讀取了所有網頁的內容 包括換行符和製表符,獲取的二進位制資料

# print(response.read().decode('utf-8')) #解碼後進行輸出 #字串-》位元組:編碼 encode() 位元組-》字串:解碼 decode()

# print(response.readline()) #讀取一行

# print(response.readlines()) #讀取全部返回乙個列表

# print(response.getheaders()) #返回乙個響應頭資訊,列表裡面有元組

# urllib.parse #處理url的urllib.parse.urlencode 介紹post請求的時候再說這個函式

#為什麼要編碼,因為瀏覽器並不能識別你請求裡面的中文字元

# 編碼

# string = urllib.parse.quote('狗蛋&password=123')

# print(string)

#解碼# string = urllib.parse.unquote('http%3a')

# print(string)

在來個稍微複雜一點點的,告訴你怎麼忽略ssl證書進行訪問。

import urllib.request

#忽略ssl證書

#構建乙個請求

# repuest = urllib.request.request(url=url,headers=headers)

# 第二種方式

repuest = urllib.request.request(url=url)

#傳送請求,還是使用urlopen方法,將請求寫入到第乙個引數中即可

reponse = urllib.request.urlopen(repuest)

print(reponse.read().decode('utf8'))

爬蟲 Python爬蟲學習筆記之Urllib庫

1.urllib.request開啟和讀取url 2.urllib.error包含urllib.request各種錯誤的模組 3.urllib.parse解析url 4.urllib.robotparse解析 robots.txt檔案 傳送get請求 引入urlopen庫 用於開啟網頁 from u...

python3爬蟲之開篇

寫在前面的話 折騰爬蟲也有一段時間了,從一開始的懵懵懂懂,到現在的有一定基礎,對於這一路的跌跌撞撞,個人覺得應該留下一些文本性的東西,畢竟好記性不如爛筆頭,而且畢竟這是吃飯的傢伙,必須用心對待才可以,從今天起,我將會把關於爬蟲的東西進行乙個整理,以供後期的查閱,同時也想將自己的一點點經驗分享給大家。...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...