使用python爬取小說(附python原始碼)

2021-10-19 21:31:28 字數 1179 閱讀 5324

import requests ###爬蟲模組,獲取網頁文字

import re ###正規表示式模組,從網頁文字中提取所需要的資訊

defgettext

(url)

: r = requests.get(url,timeout=30)

r.encoding =

return r.text

###### 輸入目錄鏈結 url,返回各章節鏈結陣列

defgeturl

(url)

: text=gettext(url)

chapter_info_list=re.findall(r''

,text)

del(chapter_info_list[0]

)return chapter_info_list

###### 輸入** url,返回該**文字陣列

defgetline

(url)

: text = gettext(url)

#print(text,file=open("序章.txt",'a',encoding='utf-8'))

title=re.findall(r''

,text)

line=re.findall(r'(.*?)'

,text)

all= title+line

return

(all

)##### 輸入陣列,生成txt檔案

defmy_print

(line,my_name)

:for i in line:

print

(i+'\n'

,file

=my_name)

##### 主函式

defmain()

: my_file=

open

("龍族.txt"

,'x'

,encoding=

'utf-8'

) url=

''url_list=geturl(url)

for i in url_list:

line=getline(i)

my_print(line,my_file)

main(

)

2023年2月23日12:39:57

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...

python 爬取小說

前些天突然想看一些 可能是因為壓力大,所以就要有補償機制吧。為了節省流量,就想著把內容爬下來,然後就可以在路上看了。於是有了下面的指令碼。usr bin env python coding utf 8 import requests from lxml import etree 為了解決unicod...

python爬取小說

一 準備 安裝 requests pyquery庫 二 使用 定義了search類 初始化時傳入 第一章url 和 名即可 再呼叫all content方法即可 coding utf8 import re import requests from requests.exceptions import...