Python爬蟲學習筆記

2021-10-18 22:40:01 字數 1474 閱讀 9003

requests庫的應用

python爬蟲學習筆記

urllib是python內建的對url進行處理的庫,包含四個基本的模組:

urllib.request用來對url傳送請求

urllib.parse用來解析url

urllib.error用來判斷request傳送的返回值

urllib.robotsparser用來解析robots.txt

可以使用下列語句訪問url:

urllib.request.urlopen(url, data=none, [timeout, ]*, cafile=none, capath=none, cadefault=false, context=none)

若不加data,則訪問方法為get請求方法,加上data為post請求方法

get與post的區別如下:

get- 從指定的資源請求資料。

post- 向指定的資源提交要被處理的資料

在呼叫requests庫時,直接輸入

(response.status_code)通過response可以獲取到許多屬性,例如:

import requests

response = requests.get(

"")print

(type

(response.status_code)

,response.status_code)

print

(type

(response.headers)

,response.headers)

print

(type

(response.cookies)

,response.cookies)

print

(type

(response.url)

,response.url)

print

(type

(response.history)

,response.history)

待更新

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

python爬蟲學習筆記

2.網頁資訊提取 beautiful soup庫 這是 學習北理的嵩山天老師mooc教程的筆記,是老師上課用的例項。import requests url try kv 將爬蟲偽裝成瀏覽器 r requests.get url,headers kv r.raise for status print ...