中國古詩文Python爬蟲JJJ

2021-10-05 22:27:07 字數 1396 閱讀 5843

import requests

import re

defparse_page

(url)

: headers=

response=requests.get(url,headers=headers)

# text=response.content.decode('utf-8')

text=response.text

# print(text)

titles = re.findall(r'.*?(.*?)'

, text, re.dotall)

##正則化得到題目

author=re.findall(r'.*?.*?.*?(.*?)

',text,re.dotall)

##正則化得到作者

dynasty= re.findall(r'.*?(.*?).*?.*?

', text, re.dotall)

##正則化得到朝代

content=re.findall(r'(.*?)

',text,re.dotall)

##正則化得到古詩句

# print(titles)

# print(author)

# print(dynasty)

contents=

#將詩句放在乙個列表裡

for x in content:

content=re.sub(r"<.*?>",""

,x)#刪除其餘特殊字元

\n content=content.strip(

)##刪除換行

# print(contents)

poems=

#得到的古詩放在乙個列表裡

for a,b,c,d in

zip(titles,author,dynasty,contents)

:#通過zip函式進行規劃

poem=

# print(poems)

for item in poems:

##遍歷每一首古詩

print

(item)

print

("++++++++++++++++下一首詩++++++++++++++++++++++"

)def

main()

:for x in

range(1

,11):

#發現每乙個網頁的古詩句**有規律可尋,所以可以把每個網頁一次性爬取下來,不用每個**單獨爬

url=

""%x parse_page(url)

if __name__ ==

'__main__'

: main(

)

python爬蟲 古詩文網驗證碼識別

古詩文網驗證碼識別,是通過對古詩文網登陸介面的驗證碼進行識別的,利用專門的驗證碼識別 可以提取驗證碼中的驗證碼 推薦 超級鷹 註冊登陸超級鷹 因為驗證碼識別需要消耗題分,所以需要先購買題分 1塊錢1000題分,每次識別10題分就差不多了 選擇 軟體id 選項,生成乙個軟體id 後面會用到 只需要自己...

scrapy框架爬取古詩文網的名句

使用scrapy框架爬取名句,在這裡只爬取的了名句和出處兩個字段。具體解析如下 items.py 用來存放爬蟲爬取下來的資料模型,如下 import scrapy class qsbkitem scrapy.item content scrapy.field auth scrapy.field pi...

如何鑑賞中國古詩詞

古典詩詞是我國文學遺產的重要組成部分,在高中語文教材中占有一定的分量。在全國語文高考中,古詩詞賞析連考了七年,難度越來越大,題型越來越完善,題量有逐年加大的趨勢,成為高考備考的乙個亮點。無論從教材角度,從高考角度,還是從繼承與創新文學遺產的角度上,培養與提高學生古詩詞的鑑賞能力,成為每乙個語文教師刻...