scrapy之爬蟲初體驗

2021-08-21 03:15:25 字數 2538 閱讀 2666

本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。

首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進行直接裝,運氣好就能一次裝成功。

第一步:建立乙個爬蟲專案:window系統下按住win+r組合鍵,然後在執行視窗輸入cmd,開啟命令列視窗。

回到你要建立的工作目錄下,當然使用anaconda軟體的小夥伴如果不想安裝其他軟體,想提高使用效果,還是把scrapy專案建在工作目錄下,當然jupyter是可以改變工作目錄的。ps:jupyter建立的檔案字尾是.ipynb,但scrapy只識別和執行字尾為.py的檔案。所以可以把寫好的檔案選擇另存為.py檔案:file-download as-python

我的工作目錄為e:\python\python_work\scrapy,cmd執行命令下圖所示:

建立乙個scrapy爬蟲專案,命令:scrapy startproject 專案名 [auto]  :表示該內容可選擇性新增;然後cd 專案名,進入到新建的專案中。如下圖所示:

第二步,開啟anaconda下的jupyter,進入到新建的專案目錄中,我們會看到一下這些檔案,目前進行簡單的介紹,以後用到就會明白它們的用途。

第三步,編寫**,首先在items.py中定義爬取的資料,開啟檔案,注釋有說明此檔案的作用和定義爬取資料的格式。注意:使用jupyter軟體的小夥伴一定要儲存修改的.py檔案(因為jupyter會自動儲存.ipynb格式的檔案,但不會自動儲存.py格式的檔案)。

其次在pipelines.py檔案中,進行儲存爬取資料的操作。

# -*- coding: utf-8 -*-

# define your item pipelines here

## don't forget to add your pipeline to the item_pipelines setting

# see:

class csdnpipeline(object):

def process_item(self, item, spider):

for i in range(0,len(item['name'])):

print(item['name'][i])

print(item['class_num'][i])

print(item['price'][i])

return item

最後匯入items檔案中定義的類,進行請求網頁和爬取資料,資料提取使用xpath。

# -*- coding: utf-8 -*-

import scrapy

from csdn.items import csdnitem #匯入模組

item = csdnitem() #例項化

item['name'] = response.xpath("//span[@class='title']/text()").extract() #item['class_num'] = response.xpath("//p/em/text()").extract()

item['price'] = response.xpath("//p[@class='clearfix']/i/text()").extract() #yield item

在setting.py檔案中進行如下檔案配置。

很多時候會把該配置robotstxt_obey = false。

在cmd執行命令:

scrapy crawl

檔名(--nolog)      --nolog

表示結果顯示在命令列中,可以省略。執行該命令必須在專案路徑下,不然會報錯。

「黑客」入門 爬蟲scrapy初體驗

歡迎關注,敬請點讚!pip install scrapy 需要在專案根目錄下,如d python spider 執行 scrapy startproject 專案名 如 lab d python spider scrapy startproject lab 進入專案內 cd 專案名,d python...

Scrapy爬蟲庫使用初體驗

安裝pip install scrapy 中間可能會遇到的問題 建立專案 其中 是你的專案名 本文中使用tutorial 目錄如上圖所示 在items.py中寫入需要儲存的字段 import scrapy class tutorialitem scrapy.item define the field...

Scrapy框架系列 爬蟲利器之初體驗(1)

pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋,這個 dougban 是從 來的,此處先留乙個小坑 yield itemclass doubantop250pipeline objec...