scrapy 自學入門demo分享

2021-09-13 02:58:22 字數 1619 閱讀 1161

本文基於python 3.7.0,win10平台; 2018-08

完整專案**:

注意環境變數是否配置成功

為了安裝順利,請備好梯子
安裝過程中注意以下報錯資訊:

microsoft visual c++ 14.0 is required. get it with "microsoft visual c++ build tools"

解決辦法:

cp:表示python版本

amd64:表示64位

如果抓取的內容包含中文可配置:feed_export_encoding = 'utf-8'

import scrapy

class novelitem(scrapy.item):

title = scrapy.field()

content = scrapy.field()

這些即你需要儲存的欄位名

import scrapy

# 引入自定義的items

from mytest.items import novelitem

# # 繼承scrapy.spider

class novelspider(scrapy.spider):

# 爬蟲名

name = 'novel_spider'

# 允許的網域名稱

allowed_domains = ['']

# 入口url 扔到排程器裡面去

start_urls = ['/chapter/20180406/29649.html']

def parse(self, response):

movielist = response.xpath('//*[@id="container"]/div[3]/div[2]/div[2]/div/div/ul/li')

novelcontent = novelitem()

for item in movielist:

u = '' + item.xpath('.//a/@href').extract_first()

yield scrapy.request(u, callback= self.content_a, meta= , dont_filter = true)

# 放到管道裡否則 pipeline獲取不到

# 如果你發現拿到的內容一直為空,注意是否被過濾了,即dont_filter沒有設定

def content_a(self, response):

novelcontent = response.meta['nc']

novelcontent['title'] = response.xpath('//*[@id="j_article"]/div[1]/h1/text()').extract_first()

yield novelcontent

注意以下幾點:

匯出為json: scrapy crawl your-spider-name -o test.json

如果出現報錯資訊:

github blog issues

Scrapy入門 環境安裝及demo執行

執行環境 win10 python3.6.5 vscode python環境的安裝本文不再贅述 下面通過pip命令安裝scrapy環境。在vscode上新建乙個終端,終端上鍵入命令 pip install scrapy pip會自動收集依賴的庫資訊,並依次安裝 筆者在執行過程中遇到了兩個問題,乙個是...

Scrapy框架簡單爬蟲demo

接著上一節的scrapy環境搭建,這次我們開始長征的第二步,如果第一步的還沒走,請出門右轉 scrapy爬蟲框架環境搭建 新建scrapy專案 專案名稱是scrapydemo scrapy startproject scrapydemo 然後回車,就會自動生成乙個專案骨架,如下圖 然後我們寫爬蟲的 ...

Scrapy入門 Scrapy是什麼

一 scrapy 蜘蛛 scrapy是我們熟知的蜘蛛爬蟲框架,我們用蜘蛛來獲取網際網路上的各種資訊,然後再對這些資訊進行資料分析處理。所以說,scrapy是學習大資料的入門技能。scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。蜘蛛作為網路爬蟲,在網上到處或定向抓取 網頁的html資...