爬蟲 建立scrapy框架的專案

2021-10-07 13:30:39 字數 874 閱讀 7716

進入命令管理器

通過命令scrapy startproject spider3

進入spider3專案中

執行scrapy genspider university qianmu.org (scrapy genspider 爬蟲的名字name 爬蟲的網域名稱)

通過pycharm軟體匯入此專案

scrapy.cfg:必須有的重要的專案的配置檔案

item.py:定義item類,從scrapy.item繼承,裡面定義scrapy.field類

pipelines.py:處理爬取的資料流向。重要的是process_item()方法

spiders目錄下的__init__.py:也是必須有。在這裡可以寫爬蟲類或爬蟲子模組

settings.py 配置檔案:

bot_name # 爬蟲名

robotstxt_obey = true # 遵守robots協議

user_agent=』』 # 指定爬取時使用。一定要更改user-agent,否則訪問會報403錯誤

concurrent_request = 16 # 預設16個並行

cookies_enabled = false # 預設是啟用。一般需要登入時才需要開啟cookie

default_request_headers = {} # 預設請求頭,需要時填寫

spider_middlewares # 爬蟲中介軟體

『first.middlewares.first**********middleware』: 543 # 543優先順序越小越高

『firstscrapy.pipelines.firstscrapypipeline』: 300 # item交給哪乙個管道處理,300優先順序越小越高

其他引數介紹參考:

Scrapy建立爬蟲專案步驟

1.開啟cmd命令列工具,輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案,檢視專案目錄 3.建立爬蟲,開啟cmd,cd命令進入到爬蟲專案資料夾,輸入 scrapy genspider 爬蟲檔名 爬蟲基礎網域名稱 4.開啟pycharm,發現 spider 目錄...

基於Scrapy框架編寫爬蟲專案

知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組,網路安裝 指直接在控制台 pip install xx 第6條,配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...

爬蟲框架 scrapy 專案檔案詳解

第一部分 基本配置 1 專案名稱,預設的user agent由它來構成,也作為日誌記錄的日誌名 bot name amazon 2 爬蟲應用路徑 spider modules amazon.spiders newspider module amazon.spiders 3 客戶端user agent...