初級爬蟲爬取筆趣閣小說

import requests
from pyquery import pyquery as pq 
def get_content(a):
response=requests.get(a) 
response.encoding = 'gbk'
doc = pq(response.text)
text=doc('#content.showtxt')
bookname=doc('div.bookname h1')
c=str(bookname)
a=str(text)
b=a.replace("
","\n").replace('
','\n').replace('
請記住本書首發網域名稱：www.biqugexsw.com。筆趣閣**網手機版閱讀**：m.biqugexsw.com
','').replace('\xa0','').replace('','')#初級過濾
file.write(a)#寫入章節名稱
file.write(b)#寫入內容
file.close()
def get_mulu():
index_url=''#替換任意一本**url
response=requests.get(index_url)
doc = pq(response.text)
urls = doc('div.listmain a')
length=int(len(urls))
count=0
for i in urls.items():
a=''+i.attr.href#獲取所有章節
get_content(a)
count += 1
print('進度：%0.5f' % (count / length)+'%')
get_mulu()

入門級爬蟲，3500章的**大概是用了20分鐘，還可以吧，中間沒有發生堵塞和timeout估計是這家**沒做反爬。

Python爬蟲筆趣閣小說爬取

import requests from lxml import etree以我有百萬技能點為例，在筆趣閣搜尋進入目錄頁，複製目錄頁url 對目錄頁的每個章節的url進行爬取，分析網頁利用xpath定位每個章節的url然後進行爬取，然後重新構造url。目錄每一章節的url href html e...

用爬蟲爬取筆趣閣小說

時間 2019年3月4日19 16 06 功能爬取筆趣閣任何 from urllib import request from bs4 import beautifulsoup 此函式用來獲取每章對應的並儲存 defsecondopenurl url,ch name 請求每章詳細內容 date r...

04筆趣閣小說爬取爬取整部小說

考慮到爬取時間有點長，再加上一行資訊充當進度條。完整如下 import requests from bs4 import beautifulsoup 獲取章節名稱和鏈結 target 目錄頁位址 req requests.get url target 使用beautifulsoup 篩選出id l...

初級爬蟲爬取筆趣閣小說

Python爬蟲 筆趣閣小說爬取

用爬蟲爬取筆趣閣小說

04筆趣閣小說爬取 爬取整部小說

相關推薦

Python爬蟲筆趣閣小說爬取

04筆趣閣小說爬取爬取整部小說