維基百科簡體中文語料的獲取

2022-09-03 21:03:19 字數 541 閱讀 1533

使用維基百科做訓練語料有很多好處:

到此為止,已經完成了大部分繁簡轉換工作。實際上,維基百科使用的繁簡轉換方法是以詞表為準,外加人工修正。人工修正之後的文字是這種格式,多數是為了解決各地術語名稱不同的問題:

他的主要成就包括emacs及後來的gnu emacs,gnu c 編譯器及--。

對付這種可以簡單的使用正規表示式來解決。一般簡體中文的限定詞是 zh-hans 或 zh-cn,在c#中用以下**即可完成替換:

view plaincopy to clipboardprint?

s = regex.replace(s, @」--「, @」$2」);

由於 wikipedia extractor 抽取正文時,會將有特殊標記的外文直接剔除,最後形成類似這樣的正文:

西方語言中「數學」(;)一詞源自于古希臘語的()

雖然上面這句話是讀不通的,但鑑於這種句子對我要處理的問題影響不大,就暫且忽略了。最後再將「」「」『』這些符號替換成引號,順便刪除空括號,就大功告成了!

通過上述方法得到的維基百科簡體中文純文字語料約 528m。

維基百科簡體中文語料的獲取

使用維基百科做訓練語料有很多好處 到此為止,已經完成了大部分繁簡轉換工作。實際上,維基百科使用的繁簡轉換方法是以詞表為準,外加人工修正。人工修正之後的文字是這種格式,多數是為了解決各地術語名稱不同的問題 他的主要成就包括emacs及後來的gnu emacs,gnu c 編譯器及 對付這種可以簡單的使...

使用維基百科訓練簡體中文詞向量

使用維基百科訓練簡體中文詞向量 最近需要訓練簡體中文的詞向量,而中文大規模語料獲取並沒有像英文那樣方便。搜狗語料庫 是能夠免費獲取的比較大的中文新聞語料庫。但是最新的也就是更新到 2012 word2vec 工具進行了中文詞向量的訓練。wiki 最近的中文 wiki 語料 zhwiki latest...

中文維基百科資料處理

3 opencc第三方庫,是中文字元轉換,包括中文簡體繁體相互轉換等。中文維基百科資料一般包含如下幾個部分 訓練詞向量採用的資料是正文資料,下面我們將對正文資料進行處理。使用 python wiki process.py zhwiki latest pages articles.xml.bz2 zh...