Python Scrapy專案建立（基礎普及篇）

在使用scrapy開發爬蟲時，通常需要建立乙個scrapy專案。通過如下命令即可建立 scrapy 專案：

scrapy startproject zhipinspider

在上面命令中，scrapy 是scrapy 框架提供的命令；startproject 是 scrapy 的子命令，專門用於建立專案；zhipinspider 就是要建立的專案名。

scrapy 除提供 startproject 子命令之外，它還提供了 fetch（從指定 url 獲取響應）、genspider（生成蜘蛛）、shell（啟動互動式控制台）、version（檢視 scrapy 版本）等常用的子命令。可以直接輸入 scrapy 來檢視該命令所支援的全部子命令。

執行上面命令，將會看到如下輸出結果：

new scrapy project '

zhipinspider

', using template directory '

d:\python3.6\lib\site-packages\scrapy\templates\project

', created in

: c:\users\mengma\zhipinspider

you can start your first spider with:

cd zhipinspider

scrapy genspider example example.com

view code

上面資訊顯示 scrapy 在當前目錄下建立了乙個 zhipinspider 專案，此時在當前目錄下就可以看到乙個 zhipinspider 目錄，該目錄就代表 zhipinspider 專案。

檢視 zhipinspider 專案，可以看到如下檔案結構：

zhipinspider

│ scrapy.cfg

│ └──zhipinspider

│ item.py

│ middlewares.py

│ pipelines.py

│ setting.py

│├─ spiders

│ │ __init__.py

│ │

│ └─ __pycache__

└─ __pycache__

下面大致介紹這些目錄和檔案的作用：

為了更好地理解 scrapy 專案中各元件的作用，下面給出 scrapy 概覽圖，如圖 1 所示。

圖 1 scrapy 概覽圖

在圖 1 中可以看到，scrapy 包含如下核心元件：

pipeline：該元件由開發者實現，該元件接收到 item 物件（包含蜘蛛提取的資訊）後，可以將這些資訊寫入檔案或資料庫中。

經過上面分析可知，使用 scrapy 開發網路爬蟲主要就是開發兩個元件，蜘蛛和 pipeline。

python scrapy開源專案學習

這個專案的架構不是怎麼複雜，但作為python的初學者，看到這個專案的這麼多徹底暈了。俗話說，萬事開頭難，確實，開始不知如何下手，如何定製符合自己需求的蜘蛛。只知道建立乙個工程，但工程的各個模組的作用是什麼，如何把這些模組組成乙個整體，讓它真正的發揮作用。好吧，此時最笨的方法是去瞧瞧源追蹤程式的...

創天下專案總結

1，router這塊只是單純使用了的框架推薦的非同步載入元件，並沒有深入研究webpack的懶載入原理。2，在 my元件的設計上存在瑕疵，之前總是懷疑自己的用法錯誤，直到接觸了react之後，才明白巢狀路由中的子路由是和父路由一起展示的。那說明用法是沒有錯。只是設計上有待商榷，像在做 my和其他巢狀...

python scrapy學習踩點

內容很多，今天簡單學習了scrapy的資料抓取基本流程。建立專案更改items 寫spiders邏輯。使用命令 scrapy startproject wo 建立名為wo的專案，結構如下 c scrapy.cfg wo items.py pipelines.py settings.py init ...

Python Scrapy專案建立（基礎普及篇）

python scrapy開源專案學習

創天下專案總結

python scrapy學習踩點

相關推薦