簡單爬取小說

2022-07-25 04:18:08 字數 1215 閱讀 4162

import

urllib.request

import

re#爬取**是最基礎的爬蟲,學會思路就能去做一些高階爬蟲,思路一樣,只是用的庫或者js或者非同步等問題不同而已

url = "

"#爬取的****

with urllib.request.urlopen(url) as doc:

html = doc.read()#

讀取網頁

html = html.decode("

gbk")#

解碼title = re.findall(r'

', html)[0]

fb = open('

%s.text

' % title, '

w', encoding='

gbk'

)urls = re.findall(r'

(.*?)

', html)

for i in

urls:

chapter_url = i[0]#

獲取每章**的主要位址,位址不完整

chapter_name = i[1]#

獲取每章的章名

chapter_url = "

" % chapter_url#

將基位址與每章主要位址拼接

chapter_html = urllib.request.urlopen(chapter_url).read()#

解析每章網頁

chapter_html = chapter_html.decode("

gbk")#

decode(「gbk」)或utf-8取決於原網頁的編碼

chapter_content = re.findall(r'

(.*?)

', chapter_html)[0]

chapter_content = chapter_content.replace("

", "")#

用正則將無效資料替換掉

chapter_content = chapter_content.replace("

","")#

用正則將

(換行)替換

fb.write(chapter_name)#

寫入txt檔案中

fb.write(chapter_content)

fb.write('\n

')將換行寫入

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...

nodejs 爬取小說

前段時間看到有個同學用python爬取了 於是打算用nodejs爬取一下 在這裡先總結一下整個過程.僅供學習,請勿商業 類似jquery的乙個庫 const cheerio require cheerio 檔案管理模組 const fs require fs 控制併發數 const async re...