爬蟲 python(二)初識request

2022-06-06 08:21:11 字數 1049 閱讀 2019

from urllib.request import

urlopen

#傳送請求,獲取伺服器給的響應

url = "

"response =urlopen(url)

#讀取結果,無法正常顯示中文

html =response.read()

#進行解碼操作,轉為utf-8

html_decode =html.decode()

#列印結果

print(html_decode)

執行下,會發現報錯,raise remotedisconnected("remote end closed connection without"http.client.remotedisconnected: remote end closed connection without response)

什麼意思?就是伺服器拒絕爬蟲請求,這時候我們需要模擬成乙個瀏覽器,增加request 頭資訊,主要是設定user-agent,我們改動下**,模擬成火狐瀏覽器

from urllib.request import

urlopen

from urllib.request import

request

from fake_useragent import

useragent

#設定request header

ua =useragent()

headers =

#封裝request

url = "

"request = request(url,headers=headers)

#傳送請求,獲取伺服器給的響應

response =urlopen(request)

#讀取結果,無法正常顯示中文

html =response.read()

#進行解碼操作,轉為utf-8

html_decode =html.decode()

#列印結果

print(html_decode)

再執行就會發現成功了。

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

Python爬蟲初識

目標物件為靜態 url管理器 網頁解析器 beautifulsoup 執行流程 避免重複抓取 迴圈抓取 功能 訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...

python爬蟲初識

1.爬蟲定義 學習python爬蟲首先要知道python爬蟲是什麼 爬蟲就是提取網頁中有效的資料。原理就是向伺服器提交請求,伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。2.爬蟲組成 1.傳送請求的python 2.被爬取的網頁。3.網頁結構 爬取網頁之前...