爬蟲爬起點小說

import requests

from lxml import etree

import os

# 設計模式 -- 物件導向

class spider(object):

def start_request(self):

# 1. 請求**拿到資料，抽取**名建立資料夾，抽取**鏈結

response = requests.get("")

html = etree.html(response.text) # 結構化

bigsrc_list = html.xpath('//div[@class="book-mid-info"]/h4/a/@href')

bigtit_list = html.xpath('//div[@class="book-mid-info"]/h4/a/text()')

for bigsrc, bigtit in zip(bigsrc_list, bigtit_list):

if os.path.exists(bigtit) == false:

os.mkdir(bigtit)

self.file_data(bigsrc, bigtit)

def finally_file(self, litsrc, littit, bigtit):

# 3. 請求文章拿到抽取文章內容，建立檔案儲存到相應資料夾

html = etree.html(response.text) # 結構化

# xpth是屬於list資料型別，可以用"\n".join()將list(列表)轉換為str(字串)

content = "\n".join(html.xpath('//div[@class="read-content j_readcontent"]/p/text()'))

file_name = bigtit + "\\" + littit + ".txt"

print("正在儲存檔案：" + file_name)

with open(file_name, "a", encoding="utf-8") as f:

f.write(content)

spider = spider()

spider.start_request()

爬起點的小說。。待完善

大概可以用了，就是下著下著會中斷。import urllib.request python3.7 用的 from bs4 import beautifulsoup cmd 下執行py m pip install bs4 安裝bs4 設定編碼 import importlib,sys importli...

爬起點小說 day02

總的來說起點還是挺好爬的，就是爬取的時候太慢了，4000多本就爬了2天一夜把起點首頁的所有列表 class spider list scrapy.spider name spider list 要呼叫的名字 allowed domains qidian.com 分乙個域 start urls...

使用scrapy爬蟲,爬取起點小說網的案例

爬取的頁面為爬取的為凡人修仙之仙界篇，這邊很不錯。正文的章節如下圖所示其中下面的章節為加密部分，現在暫時無法破解加密的部分。唉.下面直接上最核心的位於spiders中的核心 coding utf 8 import scrapy from qidian.items import qidian...

爬蟲爬起點小說

爬起點的小說。。待完善

爬起點小說 day02

使用scrapy爬蟲,爬取起點小說網的案例

相關推薦