scrapy 自學入門demo分享

本文基於python 3.7.0，win10平台； 2018-08

完整專案**：

注意環境變數是否配置成功

為了安裝順利，請備好梯子

安裝過程中注意以下報錯資訊：

microsoft visual c++ 14.0 is required. get it with "microsoft visual c++ build tools"

解決辦法：

cp：表示python版本

amd64：表示64位

如果抓取的內容包含中文可配置：feed_export_encoding = 'utf-8'

import scrapy
class novelitem(scrapy.item):
title = scrapy.field()
content = scrapy.field()

這些即你需要儲存的欄位名

import scrapy
# 引入自定義的items
from mytest.items import novelitem
# # 繼承scrapy.spider
class novelspider(scrapy.spider):
# 爬蟲名
name = 'novel_spider'
# 允許的網域名稱
allowed_domains = ['']
# 入口url 扔到排程器裡面去
start_urls = ['/chapter/20180406/29649.html']
def parse(self, response):
movielist = response.xpath('//*[@id="container"]/div[3]/div[2]/div[2]/div/div/ul/li')
novelcontent = novelitem()
for item in movielist:
u = '' + item.xpath('.//a/@href').extract_first()
yield scrapy.request(u, callback= self.content_a, meta= , dont_filter = true)
# 放到管道裡否則 pipeline獲取不到
# 如果你發現拿到的內容一直為空，注意是否被過濾了，即dont_filter沒有設定
def content_a(self, response):
novelcontent = response.meta['nc']
novelcontent['title'] = response.xpath('//*[@id="j_article"]/div[1]/h1/text()').extract_first()
yield novelcontent

注意以下幾點：

匯出為json： scrapy crawl your-spider-name -o test.json

如果出現報錯資訊：

github blog issues

Scrapy入門環境安裝及demo執行

執行環境 win10 python3.6.5 vscode python環境的安裝本文不再贅述下面通過pip命令安裝scrapy環境。在vscode上新建乙個終端，終端上鍵入命令 pip install scrapy pip會自動收集依賴的庫資訊，並依次安裝筆者在執行過程中遇到了兩個問題，乙個是...

Scrapy框架簡單爬蟲demo

接著上一節的scrapy環境搭建，這次我們開始長征的第二步，如果第一步的還沒走，請出門右轉 scrapy爬蟲框架環境搭建新建scrapy專案專案名稱是scrapydemo scrapy startproject scrapydemo 然後回車，就會自動生成乙個專案骨架，如下圖然後我們寫爬蟲的 ...

Scrapy入門 Scrapy是什麼

一 scrapy 蜘蛛 scrapy是我們熟知的蜘蛛爬蟲框架，我們用蜘蛛來獲取網際網路上的各種資訊，然後再對這些資訊進行資料分析處理。所以說，scrapy是學習大資料的入門技能。scrapy是乙個為了爬取資料，提取結構性資料而編寫的應用框架。蜘蛛作為網路爬蟲，在網上到處或定向抓取網頁的html資...

scrapy 自學入門demo分享

Scrapy入門 環境安裝及demo執行

Scrapy框架簡單爬蟲demo

Scrapy入門 Scrapy是什麼

相關推薦

Scrapy入門環境安裝及demo執行