scrapy框架 Python Scrapy框架

2021-10-12 06:47:31 字數 2729 閱讀 2296

scrapy是乙個適用爬取**資料、提取結構性資料的應用程式框架,它可以應用在廣泛領域:scrapy 常應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。通常我們可以很簡單的通過 scrapy 框架實現乙個爬蟲,抓取指定**的內容或。儘管scrapy原本是設計用來螢幕抓取(更精確的說,是網路抓取),但它也可以用來訪問api來提取資料。

body

安裝

1、windows 安裝

安裝 twisted 模組

筆者為python3.6

然後在對應的 cmd 開啟,(什麼是cmd筆者不多說)

推薦建立乙個虛擬環境(非必須,但推薦)

pip install ./t......(tab鍵)pip install scrapypip install pywin32
windows部署就是這麼簡單

2、ubuntu 安裝

前提是已經安裝好python3 與 pip

1、安裝依賴(來自:官方文件)

~$sudo apt-get install python3 python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
2、安裝 scrapy 

~$sudo pip3 install scrapy
3、centos 安裝前提是已經安裝好python3 與 pip

~$sudo pip3 install scrapy
部署建立scrapy專案

專案目錄結構如圖:

** 此下為筆者記錄(筆者自己需要)

pipelines.py

import pymysql, timefrom pymongo import mongoclientclass demopipeline:    def open_spider(self, spider):        '''在爬蟲開啟的時候執行一次,僅執行一次'''        self.start = time.time()        # 連線資料庫(位址,使用者名稱,密碼,名字)        self.db = pymysql.connect("localhost", "root", "root", "book", charset="utf8")        # 建立乙個游標物件        self.cur = self.db.cursor()        # 連線 mongodb        self.client = mongoclient(host="127.0.0.1", port=27017)        self.collection = self.client['']['']        print('mysql 連線成功!')        print('mongondb 連線成功!')        self.i = 0    def close_spider(self, spider):        '''在爬蟲結束時執行一次'''        # 關閉游標        self.cur.close()        # 關閉資料庫        self.db.close()        print('\n' + '爬取完成!' + '耗時:', time.time() - self.start)    def process_item(self, item, spider):        self.i += 1        data_list = [(), ]        data_dict = {}        try:            self.cur.executemany(                "insert into  () values ()",                data_list)            self.db.commit()        except exception as e:            self.db.rollback()            print("mysql 資料儲存失敗!")            print(data_list)            print(e)        try:            self.collection.insert(data_dict)        except exception as e:            print("mongodb資料儲存失敗!")            print(data_dict)            print(e)        return item
案例庫

scrapy爬蟲框架(一) scrapy框架簡介

開啟命令列輸入如下命令 pip install scrapy安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第乙個 scrapy專案了。開啟命令列,輸入如下命令 scrapy startproject yourproject這裡的...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...