Python網路爬蟲學習(1)

2021-10-23 07:14:37 字數 1339 閱讀 7096

使用python爬取amazon上的商品資訊

簡單使用beautifulsoup

以下內容是根據mooc課程:python網路爬蟲與資訊提取(北京理工大學)的第一周和第二週第一單元的部分學習記錄。

#path = root + my_url.split('/')[-1] #以名字儲存

r = requests.get(my_url)

if r.status_code == 200:

print(r.status_code)

with open (root, 'wb') as f:

f.write(r.content)

else:

print("error")

f.close()過程中遇到的問題/confusing的地方

一些小細節

r.request.headers #因為status code是503,通過這行**可以發現我們告知了amazon我們是python爬蟲,被amazon拒之門外

kv =

r = requests.get(url, headers = kv) #類似於對自己進行偽裝,假裝自己是遊覽器來拜訪amazon

一些小細節先安裝beautifulsoup:

pip install bs4
直接在command裡或者開啟python ide 測試有沒有安裝成功:

import bs4

#或者from bs4 import beautifulsoup as soup #注意大小寫很重要,這一行後邊需要用到

進行乙個小demo:

url = '' #課程裡給出的乙個簡單**可以用來test

r = requests.get(url)

if r.status_code == 200:

demo = r.text

url_html = soup(demo, 'html.parser') #我這裡使用的soup其實就是beautifulsoup,只是為了方便在上面import裡import as soup

print(url_html.prettify()) #加上prettify可以更好地看到html的格式

print(url_html.prettify())

else:

print('error')

url_html.title #可以檢視這個html裡的title

一些小細節

python網路爬蟲學習筆記(1)

一 三種網頁抓取方法 1 正規表示式 模組使用c語言編寫,速度快,但是很脆弱,可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫,速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫,即快速又健壯,通常應該是最好的選擇...

python 網路爬蟲(1)

安裝 request庫 1,執行裡面輸入cmd直接輸入pip install requests回車,即可安裝 2,直接在終端輸入python進入python自帶的idle c users ftsdata 02 python 輸入python進入idle 匯入requests庫 r requests....

Python網路爬蟲學習

最近有時間學習在慕課網上跟著嵩天老師上他的python網路爬蟲與資訊提取這門課,想著可以寫些部落格將學的爬蟲知識總結起來。win平台下 前提是安裝好python,在cmd中執行 pip installl requests 其他方法的話可以在網上搜尋。r requests.get url 其中get返...