爬蟲之亞馬遜爬取

根據mazon函式裡的引數來,爬取相關的書籍,並以json來儲存

import requests
import re
import random
import json
from bs4 import beautifulsoup
import pickle
useagent = 
def mazon(text,type=''):
if type!='':
type = '&i='+type
cookies = dict(useid = '123456',token = 'funkystyle')
responsts = requests.get(f'亞馬遜**&ref=nb_sb_noss',headers=useagent,cookies=cookies)
index = responsts.text
buti = beautifulsoup(index,'html.parser')
# print(buti.prettify())
if responsts.status_code==200:
page = re.findall('class="a-disabled">(\d+)',index)
for i in range(1,int(page[-1])+1):
rand =random.randint(1560000000,1570000000)
url = f'亞馬遜**&qid=&ref=sr_pg_'
responst = requests.get(url,headers=useagent)
if responst.status_code!=200:
print(f'執行到第頁請求失敗')
break
content = responst.text
goodslist = re.findall(f'(.*?)',cont,re.s)
title = re.sub('\s+|&.*?;','','-'.join(title))
auther = re.findall('(.*?)',cont,re.s)
price = re.findall('(.*?)',cont,re.s)
price = re.findall('\s+','-'.join(price))
dic_infor = 
with open(f'第頁商品.json','at',encoding='utf8') as fa:
json.dump(dic_infor,fa)
fa.flush()
# with open(f'.txt','wt',encoding='utf8') as fw:
# fw.write()
else:
print('首頁訪問失敗！')
# responsts.raise_for_status()
mazon('python')
# with open('第2頁商品.json','rt',encoding='gbk') as fr:
# data = json.load(fr)
# print(data)

爬蟲之小說爬取

以筆趣閣為例，爬取一念永恆這本具體如下 1 from bs4 import beautifulsoup 2from urllib import request 3import requests 4importre5 import sys6 def down this chapter chapt...

爬蟲之爬取微博

3忘記了包含yeild的函式生成器目的是可以作為乙個迭代物件貼源 importrequests fromurllib.parseimporturlencode frompyqueryimportpyqueryaspq base url header defget page page,value p...

爬蟲之全站爬取方法

方法做過好幾個關於全站的專案，這裡總結一下。先把上面那張圖寫下來，全站爬取的兩種方法關係網路優點簡單可以抓取熱門資料缺點無法抓取全量資料速度慢需要解決去重問題可行性比較高遍歷id 優點可以抓取所有資料不用資料去重缺點資源消耗大速度慢可能被發現可行性僅可用...

爬蟲之亞馬遜爬取

爬蟲之小說爬取

爬蟲之爬取微博

爬蟲之全站爬取方法

相關推薦