python爬蟲(urllib簡介)

2021-08-10 19:07:19 字數 1348 閱讀 1373

通過url開啟任意資源,官方鏈結

urllib模組提供乙個高階介面,可以在通過url在網上獲取資料。其中,urlopen()函式類似於內建函式open(),但接受的是url不是檔名。只能開啟用於讀取的url,不能任何查詢操作。

urllib.urlopen(url[, data[, prpxies[, context]]])

其中,url是**,data表示以post方式提交到url的資料,proxies用於設定**。

import urllib

print urllib.urlopen("").read()

urlopen提供如下方法:

read()、readline()、readlines()、fileno()、close() 這些方法具有與檔案物件相同的介面

info() 返回類mimetools的乙個例項。包含與url相關聯的元資訊的訊息。參見mimetools模組的描述。

etcode() 返回以響應傳送的http狀態碼,如果是http請求,200表示成功,404表示**未找到。不是http的請求,則不返回。

geturl() 返回頁面真實的url,有時伺服器會重定向到其他的url上,urlopen透明的處理這種情況,但有的操作也許需要真實url。

urllib.urlretrieve(url[, filename[, reporthook[, data]]])

複製乙個由url指向本地檔案的網路物件。

url = ""

local = "./bd.html"

urllib.urlretrieve(url, local)

urllib._urlopener

公共函式urlopen()和urlretrieve()建立乙個fancyurlopener類的例項,並使用它執行請求的操作。為了覆蓋這個功能,程式設計師可以建立乙個urlopener或fancyurlopener的子類,然後在呼叫所需函式之前,給urllib._urlopener分配乙個類的例項。

class

(urllib.fancyurlopener):

()urllib.urlcleanup()

其他一些方法:

通過python --version檢視當前預設的python版本。

版本2.7.9開始,對於https uris,urllib預設執行全部需要的證書和主機名的檢查。對於早於2.7.9的python版本,urllib不會驗證https uris的伺服器證書。

3.x以上的版本urllib和urllib2已經合併為乙個urllib庫。

參考:

(原位址找不到了)

python爬蟲筆記之urllib庫的簡單使用

1.urlopen import urllib.request response urllib.request.urlopen print response.read decode utf 8 print type response response是乙個httpresponse型別的物件,主要包含...

python 網路爬蟲 urllib

1.網域名稱與ip位址 網域名稱 dns伺服器 ip位址 你的電腦先把網域名稱傳給dns伺服器,通過dns伺服器找到網域名稱所對應的ip位址,在傳回你的電腦進行訪問。2.呼叫urllib進行爬取 讀取資料 import urllib f urllib.urlopen print f.read 讀取狀...

Python爬蟲urllib筆記整合

程式一 爬取post網頁檔案。第一步 進行網頁爬取的關鍵在於了解網頁結構,清楚網頁 找到自己需要的網頁內容 一般指所在標籤,類別,樣式等 是什麼 本次程式是找到post表單所在位置並了解必須傳遞的引數是什麼。第二步 匯入urllib的抓包 parse 引數名與表單中的name屬性一致,寫入表單傳遞引...