Python簡單爬取阿里巴巴商品資訊

2021-10-08 05:46:33 字數 1604 閱讀 5449

先碼為敬

import requests

import re

defgethtmltext

(url)

://這裡已經入門python爬蟲的應該都知道了,這就是個爬取阿里商品全部資訊的函式

try: r=requests.get(url,timeout=30)

r.raise_for_status(

) return r.text

except

:return

'error'

defparsepage

(ilt,html)

://這個函式就是利用正規表示式從獲取到的資訊裡面篩選需要的資訊

try: plt=re.findall(r'\"strpricemoney\"\:\"[\d\.]*\"'

,html)

//這裡利用正規表示式進行資訊匹配

tlt=re.findall(r'\"title\"\:\".*?\"'

,html)

for i in

range

(len

(plt)):

price=

eval

(plt[i]

.split(

':')[1

])title1=

eval

(tlt[i]

.split(

':')[1

])title=re.sub(r'<.*?>',''

,title1)\\這一段是利用正規表示式去除獲取字串裡的標籤資訊

[price,title]

)except

:print

('error'

)def

printgoodslist

(ilt)

://這個函式就是將獲取需要的資訊進行列印輸出

tplt=

'\t\t'

print

(tplt.

format

('序號'

,'**'

,'商品名稱'))

count=

0for i in ilt:

count+=

1print

(tplt.

format

(count,i[0]

,i[1])

)def

main()

://主函式進行呼叫控制其他函式功能

goods=

'電腦'

start_url=

''+goods

infolist=

try:

url=start_url

html=gethtmltext(url)

parsepage(infolist,html)

printgoodslist(infolist)

except

:print

('error'

)main(

)這段**本來是在mooc上學習到的,但當時是用來爬取**資訊的,但現在**要登入,我怕被封號^_^,就自己修改了一些內容從而來爬取阿里的商品資訊

入住阿里巴巴,成為優質供應商

知道阿里巴巴是很早的事了,那是的感覺就是上邊什麼資訊都有,卻沒有仔細看過感覺好亂,還有些飄渺。後來有註冊 那是06年的時候,就是閒著無聊,買東西多,賣東西少,當然也有啦,而且很開心的。不知不覺都到了2010年,我們身邊的阿里集團和阿里人發展的更是讓人吃驚,看了阿里十年的慶功大會,聽了馬雲的演講,真的...

阿里巴巴收買美國電子商務效勞商warkey

據國外 報道,阿里巴巴周四表示,該公司已全資收買電子商務saas 軟體即效勞 供給商vendio公司,這是阿里巴巴初次在美國市場停止收買。該項收買是阿里巴巴在美戰略的重要舉動,warkey平台次要業務是協助商家在亞馬遜和ebay等平台 產品。阿里巴巴尚未發布該收買的詳細細節。阿里巴巴認定vendio...

阿里巴巴入駐奧運會頂級贊助商名單

本文講的是阿里巴巴入駐奧運會頂級贊助商名單 it168資訊 2017年1月19日,國際奧委會在瑞士達沃斯宣布,阿里巴巴也將成為奧運會的官方贊助 雲服務 提供商。該協議將持續到2028年。阿里巴巴可能已經看到這是乙個很好的機會,來把自己展現在世界地圖上,以及加強在亞洲的廣告宣傳力度。阿里巴巴將加入頂級...