關鍵詞模組部分說明文件

2022-03-29 10:38:00 字數 2450 閱讀 1871

void denoiseword(string path, int trd)

require:path要求是乙個字串,其為乙個word文件的絕對位址,trd要求是乙個整型變

量,是當前執行緒的執行緒編號。

effect:讀取path路徑下的word文件,讀取其中的文字內容,去掉其他無關資訊,將降噪後

的文字資訊儲存在當前執行路徑下檔名為content+trd.txt和temp+trd.txt中。

modified:會在當前執行目錄下建立兩個文字檔案,分別名為content+trd.txt和temp+tr

d.txt,並向其中寫入word文件內去噪後的文字資訊,如果已經存在同名的文字檔案,那麼不

會建立其他額外的文件,而是直接向其中寫入word文件內去噪後的文字資訊。

對於word文件的操作需要引用微軟對於office.word的庫,在vs2013中,右鍵

選擇新增引用,然後選擇

將這個包加入到引用中。之後加入引用:

using

microsoft.office.interop.word;

using msword = microsoft.office.interop.word;

使用documents.open函式讀取word檔案,這個函式需要12個引數,第乙個為word檔案

的絕對位址,第2到12個引數為type.missing的object,函式返回word文件內的文字內容。

void cutwords(int trd, string analyzer = "lucene.china.chineseanalyzer")

require:trd要求是乙個整型變數,為當前執行緒的執行緒編號,analyzer要求是乙個字串,

為選擇的分詞器的名稱,預設為"lucene.china.chineseanalyzer"。

effect:將當前執行目錄下名為temp+trd.txt檔案中的文字資訊讀取出來,進行分詞操作,

將分詞後的結果儲存進當前執行目錄下名為temp+trd.txt檔案中。

modified:改變當前執行目錄下名為temp+trd.txt檔案中內容。

在分詞部分,使用了lucene的中文分詞器,所以需要引入

這兩個包,將這兩個包放在工程資料夾中。在使用的時候例項化這個中文分詞器,例項化tokens

tream,將待分詞的字串傳入流中,從流中讀取結果遍歷輸出到檔案。

void key(string path, int trd)

require:path是乙個字串,為語料庫檔案的絕對位址,trd是乙個整型變數,為當前執行緒

的執行緒編號。

在讀取excel檔案的語料庫操作中,需要用到oledb的庫,在將oledb的庫新增到工程得

引用中之後,在開頭加入

using system.data.oledb;
類似於mysql的操作,利用指令讀取到語料庫中相關詞條在檔案集中的出現頻率,修正詞

到檔案。

void translate(int trd)

require:trd為乙個整型變數,為當前執行緒的執行緒編號。

.txt檔案中。

必須是utf-8編碼格式,這一點在傳入待翻譯的字串前,需要將中文編碼成utf-8格式,除

符串重新提取資訊後可以得到翻譯後的結果。

PHP開發部分關鍵詞

thinking in software development 軟體開發思想 software system 軟體系統 software environment 軟體環境 running way 執行方式 entity 實體 entity responsibility 實體責任 entity in...

PHP開發部分關鍵詞

從別人那裡看到,能學習到一半的話,已經是很不錯了,加油 thinking in software development 軟體開發思想 software system 軟體系統 software environment 軟體環境 running way 執行方式 entity 實體 entity r...

C 中的基本關鍵詞及語法(邏輯部分)

include using namespace std int main b.邏輯位或 相當於電路裡的邏輯非門,其真值表如下 同樣地,表示某變數與某數的按邏輯位或得到的值再賦給該變數,例如 通過邏輯位或將整形數3變成整形數15,如下 include using namespace std int m...