urllib簡單網頁抓取

2021-10-07 20:27:49 字數 1208 閱讀 1512

urllib包:抓取網頁,處理url,包含模組:

用urllib實現簡單的網頁抓取

# -*- coding: utf-8 -*-

from urllib import request

import chardet

if __name__ ==

"__main__"

: response = request.urlopen(

"") html = response.read(

) charset = chardet.detect(html)

html = html.decode(charset[

"encoding"])

print

(html)

f =open

('out.txt'

,'w+'

, encoding=

'utf-8'

) f.write(html)

f.close(

)

找)

urlopen可以處理string或request物件

obj = request.request(

"/") response = request.urlopen(obj)

request物件的其他函式:

geturl():返回url

info():返回meta標記 2

的資訊getcode():返回http狀態碼 3

注意: 寫入txt時要指定utf-8格式(預設gbk)

報錯資訊:

traceback (most recent call last)

: file "c:/users/machenike/pycharmprojects/untitled/crawler_demo1.py"

, line 12,in

f.write(html)

unicodeencodeerror:

'gbk' codec can't encode character '\u0e02' in position 58895

: illegal multibyte sequence

head標籤-charset ↩︎

↩︎

urllib2抓取網頁內容

urllib和urllib2 1 urllib 僅可以接受 url,urllib2 可以接受 個設定了 headers 的 request 類例項。這表示我們可以偽裝 的 user agent 字串等。2 urllib 提供 urlencode 法 來 get 查詢字串的產 urllib2 沒有。這...

Python3網頁抓取urllib

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的 客戶端 向伺服器端傳送了一次請求,把伺服器端的檔案 抓 到本地,再進行解釋 展現。爬蟲最主要的處理物件就是url,它根據url位址取得所需要的檔案內容,然後對它進行進一步的處理。網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似...

Urllib資料抓取

python 3中,urllib是乙個收集幾個模組來使用url的軟體包,具備以下幾個功能 urllib.request.urlopen url,data none,timeout,data 預設值為none,表示請求方式為get,反之為post timeout 超時設定 匯入urllib impor...