python3 網頁爬取框架

#程式的結構設計

步驟1：提交商品搜尋請求，迴圈獲取頁面

步驟2：對於每個頁面，提取商品名稱和**資訊

步驟3：將資訊輸出到螢幕上

步驟4：將資料存入資料庫

#例項

import requests
import re
from sqlalchemy import create_engine
def gethtmltext
(url)
:try
: r=requests.
get(url,timeout=30)
r.raise_for_status()
return r.text
except:
return
''def parsepage
(ilt,html)
:try
: plt=re.
findall
(r'\"view_price\"\:\"[\d\.]*\"'
,html)
tlt=re.re.
findall
(r'\"raw_title\"\:\".*?\"'
,html)
for i in
range
(len
(plt)):
price=
eval
(plt[i]
.split
(':')[
1]) title=
eval
(tit[i]
.split
(':')[
1]) ilt.
([price,title]
) except:
print(''
)def printgoodslist
(ilt)
: tplt=
"\t\t"
print
(tplt.
format
('no'
,'price'
,'name'))
count=
0for g in ilt:
count=count+
1print
(tplt.
format
(count,g[0]
,g[1])
)print(''
)def main()
: goods=
'書包'
depth=
2 start_url=
''+goods
infolist=
for i in
range
(depth)
:try
:print
('***geturl***'
) url=start_url+
'&s='
+str
(i*44
)print
(url)
print
('***gethtml***'
) html=
gethtmltext
(url)
print
(len
(html)
)print
(html)
print
('***findhtml***'
)parsepage
(infolist,html)
printgoodslist
(infolist)
except:
continue
main
()

Python3網頁抓取urllib

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的客戶端向伺服器端傳送了一次請求，把伺服器端的檔案抓到本地，再進行解釋展現。爬蟲最主要的處理物件就是url，它根據url位址取得所需要的檔案內容，然後對它進行進一步的處理。網頁抓取，就是把url位址中指定的網路資源從網路流中讀取出來，儲存到本地。類似...

Python3爬蟲 01 簡單網頁爬取

宇宙黑客王磊磊 python3爬蟲簡單網頁的獲取第乙個簡單的示例爬去hades 官網首頁 import sys import urllib.request print sys.getdefaultencoding url 請求request urllib.request.request url...

Python3網頁post登陸

引入庫請求頭，通過firefox查得 headers 需要post的資料 postdata 獲取cookie 輸入賬號密碼的位址 loginurl 自動記住cookie 安裝opener到全域性 resp urllib.request.urlopen loginurl post登陸 post資料位...

python3 網頁爬取 框架

Python3網頁抓取urllib

Python3爬蟲 01 簡單網頁爬取

Python3網頁post登陸

相關推薦

python3 網頁爬取框架