Python爬蟲框架

2021-10-05 04:10:33 字數 1246 閱讀 5521

一、u know!!:

二、scrapy入門教程:

三、網路爬蟲之scrapy框架詳解:

四、scrapy編寫步驟(詳情見二、scrapy入門教程):

(1) mkdir乙個爬蟲資料夾 例:mkdir /home/zy/pachong/ pa_test_10_28;

(2) 在/home/zy/pachong/ pa_test_10_28路徑下建立乙個scrapy專案,例:scrapy startproject junshi (建立了乙個名為junshi的爬蟲專案);

(3) 在item.py檔案中構建item模型(定義需要爬取的各種屬性);

(4) 輸入scrapy genspider 爬蟲名 「網域名稱」 (建立乙個爬蟲指令碼的樣例,並豐富parse函式,xpath抓取等內容);

(5) 將setting.py檔案中的item_pipelines屬性的注釋去掉,並增加feed_export_encoding = 『utf-8』 以處理中文輸出;

(6) 在pipelines.py中寫入一些處理邏輯(如資料持久化等);

(7) 輸入scray crawl 爬蟲名 執行爬蟲專案;

(8) 在第(4)中 可以執行scrapy的除錯工具(命令列輸入scrapy shell) 進行response.xpath(「xpath路徑」).extract()除錯 檢視返回值,extract()函式返回的生成器物件變為資料列表;

五、爬取時遇到的問題及筆記:

(1) 獲取上次請求頁面時獲得的cookie,再次請求時攜帶該cookie,只需要在scrapy.request物件的引數中加入 meta= 即可(目前未作嘗試,不確定)

(2) 用選擇器抓取內容的時候response.xpath(『***xx』).extract()[0]其中的extract()[0]可以寫成extract_first() 即response.xpath(『***xx』). extract_first() 或者寫成response.xpath(『***xx』).get()

詳情見:

六、scrapy命令列基本用法

七、scrapy 中 request 物件和 response 物件的各引數及屬性介紹

八、scrapy scrapy爬蟲入門教程

九、scrapy爬蟲入門教程十三 settings(設定)

十、xpath的用法

十一、scrapy抓取中文但輸出卻為unicode的解決方案

在settings檔案中設定(新增):feed_export_encoding = 『utf-8』

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架 舊版本 需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...

python爬蟲scrapy框架

安裝 pip install scrapy startproject 建立乙個新專案 genspider 根據模板生成乙個新爬蟲 crawl 執行爬蟲 shell 啟動互動式抓取控制台 進入專案目錄 scrapy startproject crawlertest project name cd cr...

Python爬蟲框架Scrapy

scrapy是乙個流行的python爬蟲框架,用途廣泛.使用pip安裝scrapy pip install scrapyscrapy由一下幾個主要元件組成 首先engine從scheduler中獲得一項任務 url 並將其封裝為乙個請求 request 交給 scrapy使用twisted提供的網路...