Urllib資料抓取

2021-09-29 09:47:51 字數 1069 閱讀 6545

python 3中,urllib是乙個收集幾個模組來使用url的軟體包,具備以下幾個功能:

urllib.request.urlopen(url,data=none,[timeout,]*)

data: 預設值為none,表示請求方式為get,反之為post

timeout:超時設定

#匯入urllib

import urllib.request

#開啟url

response = urllib.request.urlopen(

'',none,2

)#讀取返回的內容

html = response.read(

).decode(

'utf8'

)#寫入txt

f =open

('html.txt'

,'w'

,encoding =

'utf8'

)f.write(html)

f.close(

)

複雜的請求

urllib.request.request(url, data=none, headers={},method=none)

#匯入urllib

import urllib.request

url =

''# 自定義請求頭

headers =

#設定request請求頭

req= urllib.request.request(url,headers=headers)

#使用urlopen開啟req

html = urllib.request.urlopen(req)

.read(

).decode(

'utf8'

)#寫入txt

f =open

('html.txt'

,'w'

,encoding =

'utf8'

)f.write(html)

f.close(

)

urllib簡單網頁抓取

urllib包 抓取網頁,處理url,包含模組 用urllib實現簡單的網頁抓取 coding utf 8 from urllib import request import chardet if name main response request.urlopen html response.re...

urllib2抓取網頁內容

urllib和urllib2 1 urllib 僅可以接受 url,urllib2 可以接受 個設定了 headers 的 request 類例項。這表示我們可以偽裝 的 user agent 字串等。2 urllib 提供 urlencode 法 來 get 查詢字串的產 urllib2 沒有。這...

python爬蟲抓取資訊 urllib

自己晚上寫的 本來抓取的是匯率 沒寫完 唉 路還長 繼續走 import requests import urllib.request import urllib.request import re import datetime def get headers 定義請求頭 換著請求頭進行爬取 he...