python中scrapy框架的簡單使用

2021-10-24 21:23:58 字數 1272 閱讀 6899

注:對過去一周的學習有個簡單的總結,鞏固一下 加深記憶

安裝:pip install scrapy

報錯 少外掛程式的話 :pip install --upgrade incremental(公升級pip包) pip install twisted(scrapy 底層的乙個框架)

執行完之後在安裝scrapy

現在最新的python自帶pip包,使用最新的應該不會有啥問題

除錯下是否安裝成功

import scrapy

html=scrapy.request("")

print(html)

控制台輸入:scrapy startproject 專案名稱(strock_spider)

重新開啟新建的工程(strock_spider)

scrapy genspider stock www.baidu.comscrapy shell (要爬取的位址)

執行結果:

[中國寶安集團股份****'>]

>>> response.xpath("//*[@id=\"detail\"]/div[2]/table/tbody/tr[1]/td[2]/span/text()")

>>> response.xpath("//*[@id=\"detail\"]/div[2]/table/tbody/tr[1]/td[2]/span/text()").extract()

['中國寶安集團股份****']

退出:exit()

找出全域性class為intro屬性的值

response.xpath("//*[@class=「intro」/text()]").extract()

注 :瀏覽器複製出來的xpath要加反義字元『\』

坑 :使用shall除錯時括號裡的不要忘了加雙引號 ,好幾次沒加

text() 是獲取屬性的文字值 不要沒加小括號

取屬性裡的值用@

post_urls=response.xpath("//a/@href").extract()

python中的Scrapy框架使用

scrapysheel scrapy終端是乙個互動終端,供您在未啟動spider的情況下嘗試及除錯您的爬取 其本意是用來測試提取資料的 不過您可以將其作為正常的python終端,在上面測試任何的python 該終端是用來測試xpath或css表示式,檢視他們的工作方式及從爬取的網頁中提取的資料。在編...

python安裝scrapy框架

說明之前在 window 10 64 python 3.5 64 環境下就已經成功安裝了 scrapy,當然也費了不少周折。為了方便後來的朋友,特將 python 3.5 下的 scrapy 安裝步驟記錄如下 注意 本文基於環境 windows 7 64 python 3.5 64 1 安裝 pyw...

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架 舊版本 需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...