Pyspider抓取靜態頁面

近期，我想爬一批新聞資訊的內容。新聞型別的**很多，我想看看有沒有乙個網頁上能包羅盡可能多的新聞**呢，於是就發現了下面這個網頁

這個頁面的下邊還有地方新聞的分類

1、爬取目標

按型別分的**列表

按地方分的**列表

2、按型別

1
#!/usr/bin/env python2#
-*- encoding: utf-8 -*-3#
created on 2018-01-02 15:44:544#
project: financenews56
from pyspider.libs.base_handler import *78
9class
handler(basehandler):
10 crawl_config =
1213
def__init__
(self):
14 self.url = '
'1516 @every(minutes=24 * 60)
17def
on_start(self):
18 self.crawl(self.url,callback=self.index_page)
1920 @config(age=10 * 24 * 60 * 60)
21def
index_page(self, response):
2223
return
[ for x in response.doc('
.mod-content
').items()]

執行結果

3、按地方

1
#!/usr/bin/env python2#
-*- encoding: utf-8 -*-3#
created on 2018-01-02 15:44:544#
project: financenews56
from pyspider.libs.base_handler import *78
9class
handler(basehandler):
10 crawl_config =
1213
def__init__
(self):
14 self.url = '
'1516 @every(minutes=24 * 60)
17def
on_start(self):
18 self.crawl(self.url,callback=self.index_page)
1920 @config(age=10 * 24 * 60 * 60)
21def
index_page(self, response):
2223
return
[ for x in response.doc('
.page
').items()]

執行結果

4、知識點小結

4.1 __init__()方法為物件建立完成後的初始化方法，自動執行，可以自定義一些全域性屬性

4.2 "city" : x.attr('id')[5:]

取屬性id的值，並從第6個字元擷取

4.3 可以在return中多級遍歷，陣列套陣列

4.4 pyspider提供了元素選擇幫助功能，可以快捷選取元素，但不是非常精確

html靜態頁面標籤抓取

最近老總要求搞什麼商品下架問題，就是別人上的商品下架了，我也要下架，所以我們要通過路徑來判斷這個商品是否下架，自己實現了幾個功能，所有的基本上都還行，就有寫需要修改語言的還可以訪問 htmlagilitypack.htmldocument htmldocument new htmlagilit...

靜態頁面的抓取（學習簡單爬蟲）

聖誕節快樂 3 在這個半放假的日子裡，人也變得慵懶起來，在mooc下學習了靜態頁面的簡單爬蟲傳送門乾貨滿滿啊所以爬了乙個羋月傳麼麼噠有些小的細節沒有做好，所以在除錯上費了不少的功夫，還是太粗心了t t 需要說明的一點是，跟著老師的當寫入到output.html中出現了亂碼，但是寫到outp...

CURL抓取頁面

curl是利用url語法在命令列方式下工作的開源檔案傳輸工具，他能夠從網際網路上獲得各種各樣的網路資源。簡單來說，curl就是抓取頁面的公升級版。1.初始化，建立乙個新curl資源 ch curl init 2.設定url和相應的選項 curl setopt ch,curlopt url,curl ...

Pyspider抓取靜態頁面

html靜態頁面標籤抓取

靜態頁面的抓取（學習簡單爬蟲）

CURL抓取頁面

相關推薦