python中scrapy框架的簡單使用

注：對過去一周的學習有個簡單的總結，鞏固一下加深記憶

安裝：pip install scrapy

報錯少外掛程式的話：pip install --upgrade incremental（公升級pip包） pip install twisted（scrapy 底層的乙個框架）

執行完之後在安裝scrapy

現在最新的python自帶pip包，使用最新的應該不會有啥問題

除錯下是否安裝成功

import scrapy
html=scrapy.request("")
print(html)

控制台輸入：scrapy startproject 專案名稱(strock_spider)

重新開啟新建的工程(strock_spider)

scrapy genspider stock www.baidu.comscrapy shell (要爬取的位址)

執行結果：

[中國寶安集團股份****'>]

>>> response.xpath("//*[@id=\"detail\"]/div[2]/table/tbody/tr[1]/td[2]/span/text()")

>>> response.xpath("//*[@id=\"detail\"]/div[2]/table/tbody/tr[1]/td[2]/span/text()").extract()

['中國寶安集團股份****']

退出：exit()

找出全域性class為intro屬性的值

response.xpath("//*[@class=「intro」/text()]").extract()

注：瀏覽器複製出來的xpath要加反義字元『\』

坑：使用shall除錯時括號裡的不要忘了加雙引號，好幾次沒加

text() 是獲取屬性的文字值不要沒加小括號

取屬性裡的值用@

post_urls=response.xpath("//a/@href").extract()

python中的Scrapy框架使用

scrapysheel scrapy終端是乙個互動終端，供您在未啟動spider的情況下嘗試及除錯您的爬取其本意是用來測試提取資料的不過您可以將其作為正常的python終端，在上面測試任何的python 該終端是用來測試xpath或css表示式，檢視他們的工作方式及從爬取的網頁中提取的資料。在編...

python安裝scrapy框架

說明之前在 window 10 64 python 3.5 64 環境下就已經成功安裝了 scrapy，當然也費了不少周折。為了方便後來的朋友，特將 python 3.5 下的 scrapy 安裝步驟記錄如下注意本文基於環境 windows 7 64 python 3.5 64 1 安裝 pyw...

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架舊版本需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...

python中scrapy框架的簡單使用

python中的Scrapy框架使用

python安裝scrapy框架

Python爬蟲 scrapy框架

相關推薦