Python自學筆記 Scrapy基礎（詳細）

建立專案與爬蟲

1.建立專案：在專案所要存放的資料夾中開啟cmd,輸入scrapy startproject 專案名稱

2.建立爬蟲：進入專案所在路徑後輸入scrapy genspider 爬蟲名字「網域名稱」

（注：爬蟲名不能與專案名相同）

3.專案目錄結構

items.py：用來存放爬蟲爬取下來資料。

middlewares.py：用來存放各種中介軟體的檔案。

pipelines.py：用來將items的模型儲存到本地磁碟中。

settings.py：本爬蟲的一些配置資訊（比如請求頭、多久傳送一次請求、ip**池等）。

scrapy.cfg：專案的配置檔案。

spiders包：以後所有的爬蟲，都是存放到這個裡面。

4.基礎設定

協議

請求頭

執行指定爬蟲（在cmd中啟動 scrapy crawl 爬蟲名）

[注：列印型別後可以找到該屬性所屬的包：eg:該response型別為，則可匯入]

使專案在python檔案中執行(不用在cmd中執行 )

xpath獲取文字：/text()

去掉上下行空格：strip()

在items處固定好spride所爬取向pipelines傳遞的資料

item.py檔案進行相應的修改

將資料轉換成字典 dict( )

[資料轉換成字典才可以json格式進行儲存]

response是乙個scrapy.http.response.html.htmlresponse物件。可以執行xpath和css語法來提取資料。

response提取出來的資料，是乙個selector或selectorlist物件。如果想要獲取其中的字串。那麼應該執行getall或者get方法。

getall方法：獲取selector中的所有文字。返回的是乙個列表。

get方法：獲取的是selector中的第乙個文字。返回的是乙個str型別。

python自學筆記

一字串單引號定義 s spam len s 求長度第一位索引從0開始 s 0 s 最後一位也可以從 1開始索引 s 1 m s 2 a 幾個常用到的索引計算方法 s 1 pam 從第乙個一直到最後乙個 s 0 3 spa 從m開始到n 1 不包括n 本例為從0到2 s 3 pam 從第乙個開始...

Python自學筆記集合

集合不同元素無序不可變型別 s set hello s s set alex alex sb s 集合的內建方法 1，add s.add 新增元素 2，clear s.clear 清空集合 3，copy s.copy 賦值集合 4，pop s.pop 隨即刪除 5，remove s.remov...

python自學筆記（四）

1.如依次列印list的內容 for name in list名稱 name為自定義便，代表每乙個元素 address 北京上海武漢西安 for name in address print name 2.如計算1到10的和sum s 0 for x in 1,2,3,4,5,6,7,8,9,1...

Python自學筆記 Scrapy基礎（詳細）

python自學筆記

Python自學筆記 集合

python自學筆記（四）

相關推薦

Python自學筆記集合