爬蟲學習第二天

2022-07-06 15:12:09 字數 2076 閱讀 2577

全稱網路爬蟲排除標準。

作用:告知網路爬蟲哪些頁面可以爬取,哪些不可以。

形式:在網路根目錄下的robots.txt檔案。

ex.檢視京東**的robots.txt檔案

爬蟲應該自動識別robots.txt檔案,再進行內容爬取。

顯示這個商品的資訊(

import requests

url = ''

try:

r = requests.get(url)

r.raise_for_status()

print(r.text[:1000])

except:

print('爬取失敗')

很遺憾,只能爬取到登入資訊。。。

url(

import requests

url = ''

try:

r = requests.get(url)

r.raise_for_status()

print(r.text[:1000])

except:

print('爬取失敗')

無情,直接爬取失敗

檢視一下status_code,顯示503

再檢視一下user-agent,

可以看到,直接就是python-requests,那麼**完全可以拒絕掉。

那麼能不能模擬成瀏覽器去訪問呢?

在使用get函式時,可以替換掉headers。

import requests

url = ''

try:

kv =

r = requests.get(url, headers=kv)

r.raise_for_status()

print(r.text[:1000])

except:

print('爬取失敗')

這次執行就成功了,輸出

amazon.cn

if (true === true) },

ue_furl = "fls-cn.amazon.cn",

ue_mid = "aahkv2x7afylw",

360的關鍵字介面是

import requests

keyword = 'python'

try:

kv =

r = requests.get('', params=kv)

print(r.request.url)

r.raise_for_status()

print(len(r.text))

except:

print('爬取失敗')

####

?wd=python

691734

地理網(

爬蟲學習第二天

概念 乙個基於網路請求的模組,作用就是模擬瀏覽器發起請求 編碼流程 制定url 進行請求的傳送 獲取響應資料 爬取到的資料 持久化儲存 制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...

爬蟲第二天

作用 網路使用者去取得網路信任 1.突破自身ip限制,去訪問一些不能訪問的站點 2.提高網路速度,服務通過有比較大的硬碟快取區,當外界資訊訪問通過後,將資訊儲存在緩衝區,其他使用者訪問相同資訊,直接在緩衝區拿 3.隱藏真實ip,對於爬蟲來說為了隱藏自身ip,防止自身ip被封鎖 爬蟲 分類 1.ftp...

爬蟲第二天學習工具

1urllib.request模組 方法 需要新增cookie和data或者headers時候 需要先收集乙個響應物件 關鍵字引數 因為urlopen 不支援重構 1 urllib.request.urlopen 需要新增cookie和data或者headers時候需要放乙個響應物件 2 respo...