Python爬蟲三國演義

2021-10-11 01:16:58 字數 1651 閱讀 9144

定位目標:

在這裡插入**片import requests

from bs4 import beautifulsoup

f=open

('./sanguo.txt'

,'w'

,encoding=

'utf-8'

)#檔案儲存在當前資料夾中

headers=

url=

""page_text=requests.get(url=url,headers=headers)

.text

#資料解析,標題,詳情頁的url,章節內容

soup=beautifulsoup(page_text,

'lxml'

)#例項化soup物件

#可以通過層級選擇器定位

a_list=soup.select(

'.book-mulu>ul>li>a'

)for a in a_list:

title=a.string

detail_url=

''+a['href'

]#對詳情頁發出url請求,解析出章節內容

page_text_detail=requests.get(url=detail_url,headers=headers)

.text

#注意不能使用上面已經例項化好的soup解析,需要重新例項化新的頁面的soup

soup=beautifulsoup(page_text_detail,

'lxml'

)# detail_list=soup.select('.chapter_content>p')

# print(detail_list)

div_tag=soup.find(

'div'

,class_=

'chapter_content'

) content=div_tag.text

f.write(title+

":"+content+

"\n"

)print

(title+

)f.close(

)

第一回·宴桃園豪傑三結義 斬黃巾英雄首立功:

滾滾長江東逝水,浪花淘盡英雄。是非成敗轉頭空。青山依舊在,幾度夕陽紅。    白髮漁樵江渚上,慣看秋月春風。一壺濁酒喜相逢。古今多少事,都付笑談中。

——調寄《臨江仙》

........

執行過程還可能會出現以下錯誤:

[winerror 10060] 由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應,連線嘗試失敗。』))

總之,使用python使用不到30行的**就可以爬取一些**資源了!

《三國演義》簡介

三國演義 是我國最早的一部長篇 章回體歷史 描寫了 三國時期的歷史故事,集體表現了統治者之間政治和軍事鬥爭。該書最早的 版本是明 嘉靖元年刊印的 三國志通俗演義 分24卷,240則,每則乙個七言標題。此後新的刊本迭出,卷數 回目 引用詩詞等均有改動。清康熙時,毛綸 毛宗崗父子對 三國志演義 進行了修...

《三國演義》統帥對比

在三國中我最佩服的統帥是陸遜。由對比可以得出一些結論。周瑜本來可以是一位很不錯的軍師統帥。可以說年輕有為,得吳侯重用,又有佳麗為妻,可謂人生大快。平心而論,赤壁之戰是周瑜的傑作。可是周瑜身體太差 可能有心臟病吧 又受箭傷,又有點嫉妒,最後一命嗚呼了。但是不能把周瑜的死歸於嫉妒,因為周瑜還是以大局為重...

爬取三國演義

import requests from bs4 import beautifulsoup if name main 佔位符代替頁碼 url 三國演義 每一頁的url url list headers 共十四頁 for pagenum in range 1 13 拼湊完整的url new url f...