網路爬蟲筆記(Day9) 初識Scrapy

2021-08-25 14:35:35 字數 1207 閱讀 2991

分析需求

獲取網頁的url

定位元素位置, 獲取特定的資訊(spiders 蜘蛛)

儲存資訊(itempipeline, 一條一條從管裡傳輸)

佇列儲存(scheduler 排程器)

學習文件:

安裝scrapy的方法:

方法1:

# 由於scrapy需要依賴wheel和twisted這兩個包,故需要先按裝好再去安裝scrapy

pip install wheel

pip install 你的路徑/twisted-18.7.0-cp35-cp35m-win_amd64.whl

pip install scrapy

.方法2:

如果是anaconda環境,可以直接使用:

conda install scrapy
建立專案:

scrapy startproject 專案名稱(scrapy_project)

# 建立spider

cd 專案目錄(scrapy_project)

scrapy genspider name ***.com

# 例如 scrapy genspider baidu baidu.com

執行:執行, 建立乙個.py檔案例如(main.py):

整個目錄結構如下:

如果直接爬取拿不到資料,就去setting.py下加入全域性請求報文,將default_request_headers 注釋開啟,加入報文。

刷題筆記day9

pat a1012 the best rank 25分 此題的坑點是,排名涉及並列名次,存在並列第一,並列第三的情況,計算排名時要特別考慮。include include include struct stus 2005 int cmpc const void a,const void b int ...

python學習筆記day9 函式

函式 定義之後可以任何需要他的地方呼叫這個函式 如果函式沒有定義返回值,使用者去取函式的返回值的話,預設返回none 1.返回值的三種情況 1.1 沒有返回值 1.1.1 沒寫return def func print s s 今天天氣好 func 1.1.2 只寫return,後面沒有數值,ret...

金華集訓 筆記 Day9 字尾陣列

sa i 第i小的字尾的編號 rank i 編號為i的字尾的排名 從小到大 heigt i 第i小的字尾和第i 1小的字尾的最長公共字首 字尾陣列的構造 1 倍增 想要求出每個位置往後2 k2 k 2k個字元,這些字元的排名 由長度為2 k2 k 2k的排名可以得出長度為2k 12 2k 1 的字串...