Pyspider抓取靜態頁面

2022-01-16 09:01:26 字數 2060 閱讀 4735

近期,我想爬一批新聞資訊的內容。新聞型別的**很多,我想看看有沒有乙個網頁上能包羅盡可能多的新聞**呢,於是就發現了下面這個網頁

這個頁面的下邊還有地方新聞的分類

1、爬取目標

按型別分的**列表

按地方分的**列表

2、按型別

1

#!/usr/bin/env python2#

-*- encoding: utf-8 -*-3#

created on 2018-01-02 15:44:544#

project: financenews56

from pyspider.libs.base_handler import *78

9class

handler(basehandler):

10 crawl_config =

1213

def__init__

(self):

14 self.url = '

'1516 @every(minutes=24 * 60)

17def

on_start(self):

18 self.crawl(self.url,callback=self.index_page)

1920 @config(age=10 * 24 * 60 * 60)

21def

index_page(self, response):

2223

return

[ for x in response.doc('

.mod-content

').items()]

執行結果

3、按地方

1

#!/usr/bin/env python2#

-*- encoding: utf-8 -*-3#

created on 2018-01-02 15:44:544#

project: financenews56

from pyspider.libs.base_handler import *78

9class

handler(basehandler):

10 crawl_config =

1213

def__init__

(self):

14 self.url = '

'1516 @every(minutes=24 * 60)

17def

on_start(self):

18 self.crawl(self.url,callback=self.index_page)

1920 @config(age=10 * 24 * 60 * 60)

21def

index_page(self, response):

2223

return

[ for x in response.doc('

.page

').items()]

執行結果

4、知識點小結

4.1 __init__()方法為物件建立完成後的初始化方法,自動執行,可以自定義一些全域性屬性

4.2 "city" : x.attr('id')[5:]

取屬性id的值,並從第6個字元擷取

4.3 可以在return中多級遍歷,陣列套陣列

4.4 pyspider提供了元素選擇幫助功能,可以快捷選取元素,但不是非常精確

html靜態頁面標籤抓取

最近老總要求搞什麼商品下架問題,就是別人 上的商品下架了,我也要下架,所以我們要通過路徑來判斷這個商品是否下架,自己實現了幾個功能,所有的 基本上都還行,就有寫需要修改語言的 還可以訪問 htmlagilitypack.htmldocument htmldocument new htmlagilit...

靜態頁面的抓取(學習簡單爬蟲)

聖誕節快樂 3 在這個半放假的日子裡,人也變得慵懶起來,在mooc下學習了靜態頁面的簡單爬蟲 傳送門 乾貨滿滿啊 所以爬了乙個羋月傳麼麼噠 有些小的細節沒有做好,所以在除錯上費了不少的功夫,還是太粗心了t t 需要說明的一點是,跟著老師的 當寫入到output.html中出現了亂碼,但是寫到outp...

CURL抓取頁面

curl是利用url語法在命令列方式下工作的開源檔案傳輸工具,他能夠從網際網路上獲得各種各樣的網路資源。簡單來說,curl就是抓取頁面的公升級版。1.初始化,建立乙個新curl資源 ch curl init 2.設定url和相應的選項 curl setopt ch,curlopt url,curl ...