正規表示式 鬥破蒼穹(Python R)

2021-08-14 20:08:11 字數 1436 閱讀 4749

# 載入模組

import re

import time

import requests

# 偽裝報頭

headers =

# 在指定路徑以追加方式新建txt檔案,後續寫入資料

f =open

('d://spyder/wd/novel.txt'

,'a+'

)# 定義get_links,獲取每一章的鏈結位址

defget_links

(url)

: destination = requests.get(url, headers = headers)

links = re.findall(

', destination.text)

urls =

[''.format

(link)

for link in links]

for url in urls:

get_info(url)

print

(url+

'...done'

)# 定義get_info,獲取每一章鏈結中的正文,注意寫入本地txt時轉碼

defget_info

(url)

: destination = requests.get(url, headers = headers)

contents = re.findall(

'', destination.content.decode(

'utf-8'

), re.s)

for content in contents:

f.write(content +

'\n'

)# 程式入口

if __name__ in

'__main__'

: url =

''get_links(url)

time.sleep(1)

# 關閉寫入

# 載入包

library(stringr)

# 定義getlinkfunc,獲取每一章的鏈結位址

getlinkfunc

# 定義getinfofunc,獲取每一章鏈結中的正文,str_extract_all將標籤名也匹配出來,用gsub去除

getinfofunc

}# 執行函式(匯出txt檔案)

python正規表示式元字元 正規表示式

字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...

Python 正規表示式

1.在python中,所有和正規表示式相關的功能都包含在re模組中。2.字元 表示 字串的末尾 如 road 則表示 只有當 road 出現在乙個字串的尾部時才會匹配。3.字元 表示 字元中的開始 如 road 則表示 只有當 road 出現在乙個字串的頭部時才會匹配。4.利用re.sub函式對字串...

Python正規表示式

學習python自然而然就不得不面對正規表示式這個難題。當初在沒有學習python之前,自己也曾經嘗試著學習過正規表示式,但是那時候感覺很麻煩,很難懂,結果就是不了了之。但是現在學習python我用的書是 python基礎教程 第二版 這本書中對re模組的講解很簡單易懂,內容不多但起碼把人領進門了,...