Python 爬蟲學習筆記1

2022-08-24 18:12:09 字數 1141 閱讀 2223

urllib模組:

urllib.requests: 開啟和讀取urls

urllib.error: 包含urllib.requests 產生的常見錯誤,使用try捕捉

urllib.parse: 包含即係url方法

urllib.robotparse: 解析robots.txt檔案

網頁編碼問題解決:

chardet 可以自動檢測頁面檔案的編碼格式,可能有誤

urlopen的返回物件:

geturl: 返回請求物件的url

info: 返回請求物件的meta資訊

getcode: 返回http code

request.data:

訪問網路的兩種方法:

get:利用引數給伺服器傳遞資訊,引數為dict,然後用parse編碼

post:一般向伺服器傳遞引數使用,把資訊自動加密處理,如果想使用post資訊,需要使用data引數

使用post,意味著http的請求頭可能需要修改

一旦更改請求方法,需要注意其他請求頭部資訊相適應

request.request

urllib.error: 沒網,伺服器連線失敗, 不知道指定伺服器, os.error子類 一般對應網路出現問題,包括url問題

httperror 對應的http請求的返回碼的錯誤,是urlerror的乙個子類

useragent 使用者**,屬於heads一部分,伺服器通過ua判斷訪問者身份 使用時可以複製,也可以web抓包

設定方式: heads , add_header

python爬蟲學習筆記(1)

2.parse模組 遇到了問題 本人使用了anaconda3中的python3環境,進行爬蟲的環境為anaconda中的spyder,使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思,主要用於url資訊的請求 import u...

python網路爬蟲學習筆記(1)

一 三種網頁抓取方法 1 正規表示式 模組使用c語言編寫,速度快,但是很脆弱,可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫,速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫,即快速又健壯,通常應該是最好的選擇...

python爬蟲筆記(1)

人稱君子協議,規定了 中哪些資料是可以被爬取的 哪些 是不可以被爬取的。相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密 requests模組 python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。作用 模擬瀏覽器傳送請求。如何使用 import...