scrapy 爬蟲程式一覽

2021-08-03 12:55:29 字數 1571 閱讀 5296

成功部署的scrapy環境

安裝pycharm

可以訪問外網的乙個**(如果你的環境可以那麼就可以不用了)

-開啟控制台視窗

-輸入scrapy startproject tutorial,會自動生成一些檔案目錄結構。像這樣子

-爬蟲主程式的功能

爬取網頁中所有文章的標題,作者,標籤

-編寫乙個類(名字隨意取)繼承至scapy.spider,這裡我取名quotesspider

-為爬蟲類定義乙個name屬性,用於標識該爬蟲類是全域性惟一的。

-重寫 start_requests方法

該方法要實現的功能有:yield 乙個scrapy.request(url,callback)例項。其中url,是要爬取的網頁,callback 是解析函式名。我喜歡這種方式,scrapy有快捷方式。

-重寫parse方法

該方法要實現的功能:通過response返回物件,獲取到自己想到的內容,從而達到爬取資料的功能。具體獲取資料方法是通過response 的selector物件

–安整**

「`python

#coding:utf-8

__author__ = 'cong.tang'

import scrapy

class dmozspider(scrapy.spider):

name = "dmoz"

urls=[

'',]def start_requests(self):

for url in self.urls:

yield scrapy.request(url,callback=self.parse)

def parse(self, response):

for quote in response.css("div.quote"):#這裡通過css篩選器來建立乙個selector

yield

# if next_page is not none:

# next_page = response.urljoin(next_page)

## yield scrapy.request(next_page,callback=self.parse)

# if next_page is not none:

# yield response.follow(next_page,callback=self.parse)

for a in response.css('li.next a'):

yield response.follow(a, callback=self.parse)

-開啟命立行執行 scrapy crawl dmoz(spider類中的定義的名字) -o output.json(生成乙個json檔案)

-檢視執行結果如下

免費開源微部落格程式一覽

以twitter為代表的微部落格是今年非常火的社交網路,在國內的發展也在上半年一度非常迅猛,雖然現在大多數微部落格都因為種種原因無法訪問,但這並沒有降低人們對微部落格的熱情,實際上,自己動手搭建乙個類似twitter的微部落格平台並不困難,這裡我就介紹一些常見的開源微部落格程式,有了這些開源 只要稍...

HTML標記一覽

標記 型別譯名或意義 作 用備註 檔案標記 檔案宣告 讓瀏覽器知道這是 html 檔案 開頭 提供檔案整體資訊 標題 定義檔案標題,將顯示於瀏覽頂端 本文 設計檔案格式及內文所在 排版標記 說明標記 為檔案加上說明,但不被顯示 段落標記 為字 畫 等之間留一空白行 換行標記 令字 畫 等顯示於下一行...

HTML 標記一覽

html 標記一覽 標記 型別譯名或意義 作 用備註 檔案標記 檔案宣告 讓瀏覽器知道這是 html 檔案 開頭 提供檔案整體資訊 標題 定義檔案標題,將顯示於瀏覽頂端 本文 設計檔案格式及內文所在 排版標記 說明標記 為檔案加上說明,但不被顯示 段落標記 為字 畫 等之間留一空白行 換行標記 令字...