PySpider安裝與使用 Windows系統下

2022-08-19 04:39:13 字數 1552 閱讀 8912

begin

安裝pip install pyspider

在windows系統好像會出現如下問題

command "python setup.py egg_info" failed with error code 10 in
解決方法:

利用wheel安裝

s1:pip install wheel

s5: 繼續pip install pyspider

####use

命令列輸入pyspider all,啟動pyspider(啟動的時候可能一直卡在result_worker starting, 這個時候先等等, 然後再ctrl + c關閉, 再次 pyspider all)

接著進入**localhost:5000,出現如下頁面

接著點選create,輸入專案名和你所要爬的**

進入專案後左邊是檢視區,可以看很多東西;右邊是**編輯區

接著講講**使用

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# created on 2018-01-13 10:23:04

# project: test

from pyspider.libs.base_handler import *

class handler(basehandler):

crawl_config =

@every(minutes=24 * 60)

def on_start(self):

self.crawl('', callback=self.index_page)#這句**的意思是爬取'',進入之後**,觸發self.index_page函式,這個時候response就是獲取到的頁面

@config(age=10 * 24 * 60 * 60)

def index_page(self, response):

for each in response.doc('a[href^="http"]').items():#這裡的response.doc語法使用的是jquery的語法,獲取屬性href字首為http的a標籤(這裡使用的css選擇器語法)

self.crawl(each.attr.href, callback=self.detail_page)#接著爬取所有獲取到的a標籤鏈結,每訪問乙個,觸發**函式self.detail_page,這個時候的response就是訪問的當前**的html頁面

@config(priority=2)

def detail_page(self, response):

#這裡返回乙個物件

return

相關資料:

這裡三篇教程都很好,可以以它為例項,

當然還有必不可少的官方文件!

Pyspider的安裝使用

系統版本是 centos 7.2 自帶python版本2.7.5 1,更新epl源 yum y install epel release 2,安裝pip yum install python pip y 3,提示pip版本有點低,更新一下 pip install upgrade pip 4,用pip...

完整pyspider安裝

通過pip install pyspider,部分win10使用者在安裝pyspider時可能會出現 command python setup.py egg info failed with error code 10 in 這個錯誤,是因為找不到pycurl導致,所以我們需要用下面的方法。一 pi...

pyspider安裝配置及使用

pyspider 於以前做的乙個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點 由於站點失效,不是都同時啦,同時有100 在跑吧 採集資料,並要求在5分鐘內將對方 的更新更新到庫中。所以,靈活的抓取控制是必須的。同時,由於100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以...