Python Scrapy專案建立(基礎普及篇)

2021-09-25 07:18:48 字數 1487 閱讀 8839

在使用scrapy開發爬蟲時,通常需要建立乙個scrapy專案。通過如下命令即可建立 scrapy 專案:

scrapy startproject zhipinspider

在上面命令中,scrapy 是scrapy 框架提供的命令;startproject 是 scrapy 的子命令,專門用於建立專案;zhipinspider 就是要建立的專案名。

scrapy 除提供 startproject 子命令之外,它還提供了 fetch(從指定 url 獲取響應)、genspider(生成蜘蛛)、shell(啟動互動式控制台)、version(檢視 scrapy 版本)等常用的子命令。可以直接輸入 scrapy 來檢視該命令所支援的全部子命令。

執行上面命令,將會看到如下輸出結果:

new scrapy project '

zhipinspider

', using template directory '

d:\python3.6\lib\site-packages\scrapy\templates\project

', created in

: c:\users\mengma\zhipinspider

you can start your first spider with:

cd zhipinspider

scrapy genspider example example.com

view code

上面資訊顯示 scrapy 在當前目錄下建立了乙個 zhipinspider 專案,此時在當前目錄下就可以看到乙個 zhipinspider 目錄,該目錄就代表 zhipinspider 專案。

檢視 zhipinspider 專案,可以看到如下檔案結構:

zhipinspider

│ scrapy.cfg

│ └──zhipinspider

│ item.py

│ middlewares.py

│ pipelines.py

│ setting.py

│├─ spiders

│ │ __init__.py

│ │

│ └─ __pycache__

└─ __pycache__

下面大致介紹這些目錄和檔案的作用:

為了更好地理解 scrapy 專案中各元件的作用,下面給出 scrapy 概覽圖,如圖 1 所示。

圖 1 scrapy 概覽圖

在圖 1 中可以看到,scrapy 包含如下核心元件:

pipeline:該元件由開發者實現,該元件接收到 item 物件(包含蜘蛛提取的資訊)後,可以將這些資訊寫入檔案或資料庫中。

經過上面分析可知,使用 scrapy 開發網路爬蟲主要就是開發兩個元件,蜘蛛和 pipeline。

python scrapy開源專案學習

這個專案的架構不是怎麼複雜,但作為python的初學者,看到這個專案的這麼多 徹底暈了。俗話說,萬事開頭難,確實,開始不知如何下手,如何定製符合自己需求的蜘蛛。只知道建立乙個工程,但工程的各個模組的作用是什麼,如何把這些模組組成乙個整體,讓它真正的發揮作用。好吧,此時最笨的方法是去瞧瞧源 追蹤程式的...

創天下專案總結

1,router這塊只是單純使用了的框架推薦的非同步載入元件,並沒有深入研究webpack的懶載入原理。2,在 my元件的設計上存在瑕疵,之前總是懷疑自己的用法錯誤,直到接觸了react之後,才明白巢狀路由中的子路由是和父路由一起展示的。那說明用法是沒有錯。只是設計上有待商榷,像在做 my和其他巢狀...

python scrapy學習踩點

內容很多,今天簡單學習了scrapy的資料抓取基本流程。建立專案 更改items 寫spiders邏輯。使用命令 scrapy startproject wo 建立名為wo的專案,結構如下 c scrapy.cfg wo items.py pipelines.py settings.py init ...