scrapy爬蟲介紹

2021-09-11 03:55:42 字數 1897 閱讀 4853

當時我是在anaconda中建立乙個虛擬環境spider

首先安裝anaconda這個包

使用 conda create -n your_env_name python=x.x(2.7、3.6等)命令建立python版本為x.x、名字為your_env_name的虛擬環境。your_env_name檔案可以在anaconda安裝目錄envs檔案下找到。

source activate spider 進入虛擬環境

scrapy startproject myspider 建立乙個新myspider工程

基本的框架建立好了

conda info -e #檢視當前環境下所建立的虛擬環境

**示例:(獲取部落格內容)

import scrapy

from scrapy.shell import inspect_response

from myspider.items import csdnitem

from myspider.settings import csdnpage

class csdnspider(scrapy.spider):

name = 'csdn'

allowed_domains = ['csdn.net']

start_urls = [

'',# '',

]def parse(self, response):

# 類似於字典的物件

boxs = response.xpath('//div[@class="article-item-box csdn-tracking-statistics"]')

for box in boxs:

# 列印僅為了測試;

# ************將item物件例項化在for迴圈裡面, 否則每次會覆蓋之前item的資訊;*******

item = csdnitem()

item['title'] = box.xpath('./h4/a/text()')[1].extract().strip()

item['url'] = box.xpath('./h4/a/@href')[0].extract()

# print("1. *****************", item['title'])

yield scrapy.request(item['url'], meta=, callback=self.parse_article)

for page in range(2, 3):

url = "/article/list/%s" %(page)

yield scrapy.request(url, callback=self.parse)

def parse_article(self, response):

item = response.request.meta['item']

# 列印僅僅為了測試:出現問題的部分.

爬蟲 Scrapy介紹

scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的網路...

Scrapy爬蟲框架介紹

scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了 頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的...

Scrapy爬蟲框架介紹

爬蟲框架是實現爬蟲功能的乙個軟體結構和功能元件集合。爬蟲框架是乙個半成品,能夠幫助使用者實現專業網路爬蟲。五個模組 spiders 爬蟲 解析 產生的相應 response 產生爬取項item,產生額外的爬取請求 requests scheduler 排程器 負責對爬取請求進行排程管理 可能同時有多...