Python爬蟲框架

一、u know！！：

二、scrapy入門教程：

三、網路爬蟲之scrapy框架詳解：

四、scrapy編寫步驟（詳情見二、scrapy入門教程）：

（1） mkdir乙個爬蟲資料夾例：mkdir /home/zy/pachong/ pa_test_10_28；

（2）在/home/zy/pachong/ pa_test_10_28路徑下建立乙個scrapy專案，例：scrapy startproject junshi （建立了乙個名為junshi的爬蟲專案）；

（3）在item.py檔案中構建item模型（定義需要爬取的各種屬性）；

（4）輸入scrapy genspider 爬蟲名「網域名稱」（建立乙個爬蟲指令碼的樣例，並豐富parse函式，xpath抓取等內容）；

（5）將setting.py檔案中的item_pipelines屬性的注釋去掉，並增加feed_export_encoding = 『utf-8』以處理中文輸出；

（6）在pipelines.py中寫入一些處理邏輯（如資料持久化等）；

（7）輸入scray crawl 爬蟲名執行爬蟲專案；

（8）在第（4）中可以執行scrapy的除錯工具（命令列輸入scrapy shell）進行response.xpath(「xpath路徑」).extract()除錯檢視返回值,extract()函式返回的生成器物件變為資料列表；

五、爬取時遇到的問題及筆記：

（1）獲取上次請求頁面時獲得的cookie，再次請求時攜帶該cookie，只需要在scrapy.request物件的引數中加入 meta= 即可（目前未作嘗試，不確定）

（2）用選擇器抓取內容的時候response.xpath(『***xx』).extract()[0]其中的extract()[0]可以寫成extract_first() 即response.xpath(『***xx』). extract_first() 或者寫成response.xpath(『***xx』).get()

詳情見：

六、scrapy命令列基本用法

七、scrapy 中 request 物件和 response 物件的各引數及屬性介紹

八、scrapy scrapy爬蟲入門教程

九、scrapy爬蟲入門教程十三 settings（設定）

十、xpath的用法

十一、scrapy抓取中文但輸出卻為unicode的解決方案

在settings檔案中設定（新增）：feed_export_encoding = 『utf-8』

Python爬蟲框架

Python爬蟲 scrapy框架

python爬蟲scrapy框架

Python爬蟲框架Scrapy

Python爬蟲框架

Python爬蟲 scrapy框架

python爬蟲scrapy框架

Python爬蟲框架Scrapy

相關推薦