python3 網頁爬取 框架

2021-09-26 04:18:17 字數 1879 閱讀 8371

#程式的結構設計

步驟1:提交商品搜尋請求,迴圈獲取頁面

步驟2:對於每個頁面,提取商品名稱和**資訊

步驟3:將資訊輸出到螢幕上

步驟4:將資料存入資料庫

#例項

import requests

import re

from sqlalchemy import create_engine

def gethtmltext

(url)

:try

: r=requests.

get(url,timeout=30)

r.raise_for_status()

return r.text

except:

return

''def parsepage

(ilt,html)

:try

: plt=re.

findall

(r'\"view_price\"\:\"[\d\.]*\"'

,html)

tlt=re.re.

findall

(r'\"raw_title\"\:\".*?\"'

,html)

for i in

range

(len

(plt)):

price=

eval

(plt[i]

.split

(':')[

1]) title=

eval

(tit[i]

.split

(':')[

1]) ilt.

([price,title]

) except:

print(''

)def printgoodslist

(ilt)

: tplt=

"\t\t"

print

(tplt.

format

('no'

,'price'

,'name'))

count=

0for g in ilt:

count=count+

1print

(tplt.

format

(count,g[0]

,g[1])

)print(''

)def main()

: goods=

'書包'

depth=

2 start_url=

''+goods

infolist=

for i in

range

(depth)

:try

:print

('***geturl***'

) url=start_url+

'&s='

+str

(i*44

)print

(url)

print

('***gethtml***'

) html=

gethtmltext

(url)

print

(len

(html)

)print

(html)

print

('***findhtml***'

)parsepage

(infolist,html)

printgoodslist

(infolist)

except:

continue

main

()

Python3網頁抓取urllib

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的 客戶端 向伺服器端傳送了一次請求,把伺服器端的檔案 抓 到本地,再進行解釋 展現。爬蟲最主要的處理物件就是url,它根據url位址取得所需要的檔案內容,然後對它進行進一步的處理。網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似...

Python3爬蟲 01 簡單網頁爬取

宇宙黑客王磊磊 python3爬蟲 簡單網頁的獲取 第乙個簡單的示例 爬去hades 官網首頁 import sys import urllib.request print sys.getdefaultencoding url 請求request urllib.request.request url...

Python3網頁post登陸

引入庫 請求頭,通過firefox查得 headers 需要post的資料 postdata 獲取cookie 輸入賬號密碼的位址 loginurl 自動記住cookie 安裝opener到全域性 resp urllib.request.urlopen loginurl post登陸 post資料位...