pycharm scrapy爬蟲金庸小說

2021-10-05 02:42:28 字數 2027 閱讀 7801

調出pycharm的teminal視窗

在pycharm terminal 呼叫anaconda prompt

準備環境

python 3.6

scrapy 安裝命令conda install scrapy

python環境最好是3.6的,因為python3.7之後的版本,依賴的openssl,必須要是1.1或者 1.0.2之後的版本。而本地預設版本為1.0,所以在安裝scrapy時會報錯

spider1:

爬取單網頁

在倚天屠龍記首頁 爬取章節名稱與章節鏈結

1->建立乙個新的scrapy專案

2->在items.py中定義item

# -*- coding: utf-8 -*-

# define here the models for your scraped items

## see documentation in:

# import scrapy

class

jinyongitem

(scrapy.item)

:# define the fields for your item here like:

# name = scrapy.field()

chap_name=scrapy.field(

)#章節名稱

chap_url=scrapy.field(

)#章節位址

chap_content=scrapy.field(

)#章節內容

img_url=scrapy.field(

)#位址

pass

3->編寫爬蟲程式

在spider1中編寫以下程式

import scrapy

from jinyong.items import jinyongitem

class

jinongspider

(scrapy.spider)

: name =

"spider1"

allowed_domains=

["www.jinyongwang.com"

] start_urls=

[""]def

parse

(self, response)

:for chap in response.xpath(

"//ul[@class='mlist']/li"):

item=jinyongitem(

) item[

"chap_name"

]=chap.xpath(

"a/text()"

).extract_first(

) item[

"chap_url"]=

""+chap.xpath(

"a/@href"

).extract_first(

)yield item

4->執行爬蟲並儲存結果

在將terminal的位址cd到第乙個jinyong目錄下

在terminal中執行一下語句

#存為csv 

爬蟲 爬蟲初識

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...

爬蟲 07 反爬蟲

回到頂部 爬蟲和反爬蟲基本概念 爬蟲 自動獲取 資料的程式,關鍵是批量的獲取。反爬蟲 使用技術手段防止爬蟲程式的方法。誤傷 反爬蟲技術將普通使用者識別為爬蟲,如果誤傷過高,效果再高也不能用。成本 反爬蟲需要的人力和機器成本。攔截 成功攔截爬蟲,一般攔截率越高,誤傷率越高。反爬蟲的目的 初級爬蟲 簡單...

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...