用scrapy迴圈爬取京東資料匯入Mysql

2021-08-17 20:03:52 字數 4598 閱讀 3874

感覺網上用scrapy爬京東資料的文章挺多的,但是我還是想自己寫一遍吧。

京東是有反爬機制的,所以我用到使用者**、偽裝成瀏覽器。

爬取資料是京東**的手機資訊 url:

大概是9000多條資料,不在列表之內的商品沒有算在內。

我遇到的問題:

1、使用者**最好是用方法(

use_proxy

)封裝起來,因為自己之前就是把**直接寫在parse下,遇到not enough values to unpack的問題,我實在不知道錯誤出在哪一句,就每句**之後print,發現問題出在urlopen(),但是我反覆試、查網上,也沒發現錯誤在哪,寫成方法就解決了,現在想來可能是因為parse方法是處理respose。

2、在把資料匯入mysql之前,我先試著把資料匯入到檔案中,但是在匯入中,發現x.txt的大小一直是0kb,1kb在變,沒有增長,想想應該是覆蓋了,本來是認為自己fh.close()寫的位置不對,後來突然想到

fh = open("d:/pythonlianxi/result/4.txt", "w")

寫錯了,應該要把'w'變成'a'。

3、匯入資料庫,碰到的問題主要是中文編碼問題,要先開啟mysql,  show variables like '%char%';檢視資料庫的字符集編碼形式,用對應的形式,比如我自己是utf8,用gbk就不好使。另外,在寫連線mysql時 charset='utf8'不要忘記。

scrapy 爬取京東商品列表

import scrapy class jdspider scrapy.spider scrapy crawl name便是由這個name決定的 name jd def start requests self url yield scrapy.request url url,callback sel...

scrapy爬取京東iPhone11評論(一)

諮詢行業中經常接觸到文字類資訊,無論是分詞做詞雲圖,還是整理編碼分析用,都非常具有價值。1.scrapy開始建立專案 2.進入建立的專案目錄 cd projectname 3.以預設的basic模板建立第乙個爬蟲 scrapy genspider spidername www.hostdomain....

用Python爬取京東手機評論

好評 中評 差評 追評 可以看到這個url裡都有以下幾個引數 videocount 2638,videocountstr 2600 aftercount 4852,aftercountstr 4800 showcount 24200,showcountstr 2.4萬 productid 10000...