Python網路爬蟲學習（1）

使用python爬取amazon上的商品資訊

簡單使用beautifulsoup

以下內容是根據mooc課程：python網路爬蟲與資訊提取（北京理工大學）的第一周和第二週第一單元的部分學習記錄。

#path = root + my_url.split('/')[-1] #以名字儲存

r = requests.get(my_url)

if r.status_code == 200:

print(r.status_code)

with open (root, 'wb') as f:

f.write(r.content)

else:

print("error")

f.close()過程中遇到的問題/confusing的地方

一些小細節

r.request.headers #因為status code是503，通過這行**可以發現我們告知了amazon我們是python爬蟲，被amazon拒之門外 kv =

r = requests.get(url, headers = kv) #類似於對自己進行偽裝，假裝自己是遊覽器來拜訪amazon

一些小細節先安裝beautifulsoup:

pip install bs4

直接在command裡或者開啟python ide 測試有沒有安裝成功：

import bs4
#或者from bs4 import beautifulsoup as soup #注意大小寫很重要，這一行後邊需要用到

進行乙個小demo：

url = '' #課程裡給出的乙個簡單**可以用來test
r = requests.get(url)
if r.status_code == 200:
demo = r.text
url_html = soup(demo, 'html.parser') #我這裡使用的soup其實就是beautifulsoup，只是為了方便在上面import裡import as soup
print(url_html.prettify()) #加上prettify可以更好地看到html的格式
print(url_html.prettify())
else:
print('error')
url_html.title #可以檢視這個html裡的title

一些小細節

python網路爬蟲學習筆記（1）

一三種網頁抓取方法 1 正規表示式模組使用c語言編寫，速度快，但是很脆弱，可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫，速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫，即快速又健壯，通常應該是最好的選擇...

python 網路爬蟲（1）

安裝 request庫 1，執行裡面輸入cmd直接輸入pip install requests回車，即可安裝 2，直接在終端輸入python進入python自帶的idle c users ftsdata 02 python 輸入python進入idle 匯入requests庫 r requests....

Python網路爬蟲學習

最近有時間學習在慕課網上跟著嵩天老師上他的python網路爬蟲與資訊提取這門課，想著可以寫些部落格將學的爬蟲知識總結起來。win平台下前提是安裝好python，在cmd中執行 pip installl requests 其他方法的話可以在網上搜尋。r requests.get url 其中get返...

Python網路爬蟲學習（1）

python網路爬蟲學習筆記（1）

python 網路爬蟲（1）

Python網路爬蟲學習

相關推薦