Python Word文件重複字檢測程式

2021-10-08 03:33:48 字數 1469 閱讀 6751

要求:

1.使用外接庫python-docx

2.將檢測演算法封裝為函式並呼叫此函式實現功能

3.連續重複字刪除到只剩乙個

4.自定義指定某個字或詞,輸出出現次數

5.word文件**不限,建議使用正規表示式實現演算法

2.**展示:

import docx

import re

class

solution

:def

my_remove

(self)

:while1:

end_symbol =

len(self)

i =0while i <

len(self)-1

:if i >=

0and self[i]

== self[i +1]

: self = self[

:i +1]

+ self[i +2:

] i -=

2 i +=

1if end_symbol ==

len(self)

:return self

# 連續重複字刪除到只剩乙個

defmy_find

(my_str, your_find)

: count =

0for index, value in

enumerate

(my_str)

:if your_find == value:

count +=

1print

(your_find,

'出現的位置:'

, index)

# 出現的位置

print

(your_find,

'出現的次數:'

, count)

# 出現的次數

# 獲取字串出現位置和次數

doc = docx.document(r'f:\python.docx'

)# 這裡的f:\python.docx為檔案路徑

content =

''.join(i.text for i in doc.paragraphs)

print

('原內容:{}'

.format

(content)

)# 所有段落合併為乙個字串

solution.my_find(content,

'2')

content = solution.my_remove(content)

print

('刪改重複值後:{}'

.format

(content)

)

注意:

所操作的文件必須要存在,否則報錯。

Python檢測重複字 部分中華字經重複字檢測

中文去標點符號,中文繁體字轉化簡體字,列表檢測並輸出重複項,list當多個相同值時索引 關於去標點,使用包 zhon,直接pip即可 安裝及使用 關於中文繁簡轉換,安裝opencc python 安裝及使用 coding utf 8 author zhr date 2019 10 25 20 26 ...

guid會重複麼 SCI重複多少字算抄襲

發表sci 是很多人的夢想和目標,但是我們都知道sci對文章的要求是非常高的,文章必須具備很高的學術價值才行,也就是說文章的原創度要夠高,但超高的原創度對於廣大普通作者來說似乎有點兒不大現實,我們或多或少都會引用別人的文獻,既然引用,就存在引用率過高的可能性,sci重複多少字算抄襲?sci文章檢測重...

Swift文件Chapter 3 字串和字元

swift的字串型別由string型別表示,也有多種訪問方式,例如以character集合方式訪問。字串的字面量是一對雙引號包裹著的具有固定順序的字符集。一對三個引號包裹著的字串是多行字串字面量。字串開始位置為三引號後一行 意味著第乙個換行符不會計入 結束位置是三引號前一行 意味著三引號前的換行符不...