spider專案建立以及執行

2021-09-21 06:39:19 字數 1110 閱讀 9584

1. 建立專案

scrapy startproject projectname
2. 建立爬蟲程式(模板)

cd movie

scrapy genspider spidername start_urls

3. 進入專案的根目錄,執行命令啟動spider

scrapy crawl spidername
可以將終端的指令寫入乙個檔案main.py中,執行時直接執行main.py檔案即可

from scrapy import cmdline

cmdline.execute("scrapy crawl forum_spider".split())

# cmdline.execute(["scrapy","crawl","forum_spider"])

檔案說明:

0、()+group()可以提取字串

1、"^"代表是以什麼字元開頭

2、"."代表任意字元

3、"*"代表前一字元重複0次或多次

4、"$"代表以什麼字元結束

5、"?"代表一種非貪婪匹配模式

6、"+"代表前一字元至少出現一次

7、"|"代表或運算

8、代表前乙個數出現兩次,代表兩次以上,代表2到5次

9、[a,b,c,d]代表只要滿足其中任意字元即可,中括號裡的上述字元不具有特殊性

10、\s代表出現空格匹配成功,\s代表只要不出現空格匹配成功

11、\w代表[a-za-z0-9_]其中乙個,\w剛好相反

12、[\u4e00-\u9fa5]

13、\d代表匹配數字

在settings.py中設定的pipeline,會被project中的所有爬蟲按照優先順序預設呼叫,例如:

item_pipelines =
當我們」scrapy crawl tongcheng」時,會按照優先順序從低到高也就是100、200、300順序呼叫pipeline

xpath 語法

scrapy簡單入門

scrapy入門教程

Django建立以及執行專案

1.通過命令列方式 例如 django admin startproject first project 在我們的資料夾目錄下就會產生專案名稱的檔案 2.用pycharm的方式 1.通過命令列方式 2.通過pycharm執行。1.在終端,使用命令 python manage.py runserver...

Scrapy 執行多個爬蟲spider檔案

1.在專案資料夾中新建乙個commands資料夾 2.在command的資料夾中新建乙個檔案 crawlall.py 3.在crawlall.py 中寫乙個command類,該類繼承 scrapy.commands from scrapy.commands import scrapycommand ...

play 安裝以及建立專案

安裝 1 要執行play!需要jdk 6 or later 3 在命令視窗中輸入play help,若看到相應資訊,則安裝成功。建立專案 1.play new 你的專案名 test 2.跳轉到你的專案目錄下,使用play 3.選擇你的ide 如果用intellij 則輸入idea 4.當然是run ...