簡易中文自動文摘系統(二) 中文語料庫的準備

2021-08-21 08:07:12 字數 2006 閱讀 4352

bzcat zhwiki-latest-pages-articles.xml.bz2 | python wikiextractor.py -b 1000m -o extracted >output.txt
其中-b 1000m是將文字以1000m大小為單位進行分割;output.txt儲存的是輸出過程中日誌資訊而非所抽取的正文文字。

上圖是抽取出的語料庫,我們發現是正體中文庫。

我們這裡使用opencc對語料庫進行簡化。同樣,在macos終端輸入以下命令列:

opencc -i wiki_00 -o zh_wiki_00 -c zht2zhs.ini

opencc -i wiki_01 -o zh_wiki_01 -c zht2zhs.ini

得到簡體中文的語料包zh_wiki_00和zh_wiki_01。簡化後如下:

jieba分詞是支援python語言的中文分詞元件。jieba分詞在深度學習,自然語言處理中有著廣泛使用,用法簡單。

# encoding=utf-8

import jieba

import jieba.posseg as pseg

seg_list = jieba.cut("我來到南京郵電大學", cut_all=true)

print("full mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我來到南京郵電大學", cut_all=false)

print("default mode: " + "/ ".join(seg_list)) # 精確模式

seg_list = jieba.cut("他就職於華為南京研究所") # 預設是精確模式

print("/".join(seg_list))

seg_list = jieba.cut("小明本科畢業於南京郵電大學,後在北京郵電大學深造")

print("/".join(seg_list))

seg_list = jieba.cut_for_search("小明本科畢業於南京郵電大學,後在北京郵電大學深造") # 搜尋引擎模式

print("/".join(seg_list))

words = pseg.cut("我愛南京的新街口")#檢視詞性

for word, flag in words:

print('%s %s' %(word, flag))

輸出結果如下:

執行以下**,完成語料庫的分詞:

# encoding = utf-8

import jieba

import codecs

import re

f = codecs.open('cut_zh_wiki_00.txt', "a+", 'utf-8')

for line in open("zh_wiki_00"):

for i in re.sub('[a-za-z0-9]', '', line).split(' '):

if i != '':

data = list(jieba.cut(i, cut_all = false))

readline = ' '.join(data) + '\n'

f.write(readline)

f.close()

分詞結果如下:

SolrCloud學習(二)中文分詞

中文分詞 solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步 新增ikanalyzer的jar包至lib環境,操作如下 cp ikanalyzer2012ff u1.jar...

NLP 二 中文處理jieba模組

jieba模組 中文沒有空格 jieba.cut方法接受三個引數的 需要分詞的字串 cut all引數用來控制是否採用全模式 hmm引數用來控制是否使用hmm模型 jieba.cut for search方法接受兩個引數 需要分詞的字串 是否使用hmm模型 import jieba text 我來到...

centos 5 3中文系統亂碼問題

緣由 本人在虛擬機器中安裝centos 5.3,起初安裝時選擇了english,後來使用的過程中發現開啟網頁,會出現中文亂碼,無法正常顯示。當然,本地檔案中的中文更是無法顯示。若是將系統語言language設定成中文,則整個系統全部亂碼。綜上 解決系統中文亂碼的步驟為 1.在光碟中 找到這兩個包,安...