網路爬蟲 python中爬蟲庫的安裝和簡介

2021-10-08 15:13:24 字數 2356 閱讀 9191

二、requests庫簡介

總結z…@1…6.com

**:

隨著網路的迅速發展,全球資訊網成為大量資訊的載體,如何有效地提取並利用這些資訊成為乙個巨大的挑戰。那麼我們如何根據需求獲取我們想要的東西呢?網路爬蟲,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。很多不太了解爬蟲的朋友也許會感覺這是乙個很高大上的技術,其實它的學習並不是很難,我們只需要學好python下面的 request庫就好,這是乙個專門用於網路爬蟲的比較好的爬蟲庫。下面我就來介紹一下該庫的安裝過程和簡單的測試。

request庫操具有以下特點:

step2:使用如下命令進行安裝:

pip install requests
安裝完成後如下所示,提公升庫安裝成功。

request 的官方**:

"")r.status_code # 檢測狀態碼,200表示訪問成功,否則表示訪問失敗

注意:如果在idle裡面輸入以上**要逐行輸入,否則會出錯誤,建議大家使用pycharm

具體執行結果如下:

可以看到狀態碼返回值為200,這就說明已經訪問成功。

r.encoding =

'utf-8'

# 修改編碼格式為utf-8

r.text # 列印網頁內容

在requests庫中,主要有7個方法,具體如下:

下面是獲取乙個網有最簡單的**,其中的url表示想要獲取的網頁**。

r=requests.get(url)

# 獲取網頁最簡單的**

通過get方法構造乙個向伺服器請求資源的request物件(request大小寫比較敏感,此處為大寫);然後返回乙個包含伺服器資源的response物件。

get方法的完整使用方法如下:

requests.get(url,params=

none

,**kwargs)

params:url中的額外引數,字典或位元組流格式,可選

r.

type

(r)# 檢測訪問型別,下面的返回資訊表示表示這個類為respose類

利用r=requests.get(url)命令返回的r屬於response類,下面是response物件的幾個常用屬性

直接在idle中輸入如下**,在我們不進行編碼之前直接列印,可以看到網頁是亂碼狀態

import rquests

r=requests.get(

"")r.status_code

r.text # 直接列印網頁內容

然後我們使用下面兩行**分別檢視該網頁的編碼格式:

r.encoding     # 網頁當前編碼方式
具體返回值如下:

從返回結果可以看到當前編碼格式,在當前編碼格式下,返回頁碼內容是亂碼的,所以我們考慮利用備選編碼格式替換當前編碼格式,然後在進行顯示。

r.encoding =

"utf-8"

r.text

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容 可以匹配多位數字 可以匹配用逗號隔開的數字 可以匹配一位的數字 可以匹配帶小數點的數字 匹配空白符 匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然,爬蟲還有乙個很關鍵的就通...