爬蟲例項1 爬取新聞列表和發布時間

一、新建工程

scrapy

startproject shop

二、items

.py檔案**：

import scrapy

class shopitem(scrapy.item):

title = scrapy.field()

time = scrapy.field()

三、shopspider.py

檔案爬蟲**

# -*-coding:utf-8-*-

import scrapy

from shop.items import shopitem

class shopspider(scrapy.spider):

name = "shop"

allowed_domains = ["news.******x.xx.cn"]

start_urls = [""]

def parse(self,response):

item = shopitem()

item['title'] = response.xpath("//div[@class='txttotwe2']/ul/li/a/text()").extract()

item['time'] = response.xpath("//div[@class='txttotwe2']/ul/li/font/text()").extract()

yield item

四、pipelines.py

檔案**（列印出內容）：

注意：如果在

shopspider.py

檔案中列印出內容則顯示的是

unicode

編碼，而在

pipelines.py

列印出來的資訊則是正常的顯示內容。

class shoppipeline(object):

def process_item(self, item, spider):

count=len(item['title'])

print 'news count: ' ,count

for i in range(0,count):

print 'biaoti: '+item['title'][i]

print 'shijian: '+item['time'][i]

return item

五、爬取顯示的結果：

root@kali:~/shop# scrapy crawl shop --nolog

news count: 40

biaoti: ***

建成國家食品安全示範城市

shijian: (2017-06-16)

biaoti: ***x

考試開始報名

……………………

…………………..

爬取新聞列表

獲取單條新聞的標題鏈結時間內容點選次數，幷包裝成乙個函式。獲取乙個新聞列表頁的所有新聞的上述詳情，幷包裝成乙個函式。獲取所有新聞列表頁的呼叫上述函式。完成所有校園新聞的爬取工作。完成自己所選其他主題相應資料的爬取工作。import requests import refrom bs4 i...

爬取新聞列表

獲取單條新聞的標題鏈結時間內容點選次數，幷包裝成乙個函式。獲取乙個新聞列表頁的所有新聞的上述詳情，幷包裝成乙個函式。獲取所有新聞列表頁的呼叫上述函式。完成所有新聞的爬取。import requests from bs4 import beautifulsoup res requests....

爬取新聞列表

import requests import re from bs4 import beautifulsoup url res requests.get url res.encoding utf 8 soup beautifulsoup res.text,html.parser n int soup...

爬蟲例項1 爬取新聞列表和發布時間

爬取新聞列表

爬取新聞列表

爬取新聞列表

相關推薦