抽取wiki內容以及簡體中文轉換為正體中文

2021-06-13 17:01:50 字數 900 閱讀 5609

抽取wiki內容

今天測試了網上分享的乙個工具:wikiextractor.py

。)直接使用這條命令即可完成抽取,執行了大約半小時的時間。

bzcat zhwiki-latest-pages-articles.xml.bz2 | python wikiextractor.py -b1000m -o extracted >output.txt

引數 -b1000m 表示以 1000m 為單位切分檔案,預設是 500k。由於最後生成的正文文字不到 600m,把引數設定的大一些可以保證最後的抽取結果全部存在乙個檔案裡。

簡體中文轉換為正體中文

維基百科的中文資料是繁簡混雜的,裡面包含大陸簡體、台灣繁體、港澳繁體等多種不同的資料。有時候在一篇文章的不同段落間也會使用不同的繁簡字。

解決這個問題最佳的辦法應該是直接使用維基百科自身的繁簡轉換方法(參照

繁簡處理

)。不過維基百科**雖然是開源的,但要把裡面的繁簡轉換功能拆解出來,有一定的難度。

為了方便起見,我直接使用了開源專案 opencc。參照

安裝說明

的方法,安裝完成之後,使用下面的命令進行繁簡轉換,整個過程大約需要1分鐘。

opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

命令中的 wiki_00 這個檔案是此前使用 wikipedia extractor 得到的。

注意:在fedora中,直接使用yum install opencc是不夠的,使用opencc會提示沒有這個命令。yum search opencc一下,發現有個opencc-tools安裝之,使用opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini命令,果斷成功!

參考:繁簡轉換

簡體中文Win7開啟簡體中文chm中文亂碼解決方法

簡體中文win7開啟簡體中文chm中文亂碼解決方法 regedit,在hkey current user software microsoft internet explorer international下增加名為autodetect型別為dword值為1的鍵值。其實在windows下開啟chm檔...

簡體中文轉換正體中文

簡體中文 從老於那裡得到一段 string str1 小調三丁 劍羽斬 string str2 string str3 str2 microsoft.visualbasic.strings.strconv str1,microsoft.visualbasic.vbstrconv.traditiona...

hurricane中文 奠基簡體中文免安裝版

重要提示!中文設定 將setting中的language換成簡體中文即可。遊戲介紹 奠基 foundation 是polymorph games製作並發行的一款中世紀風格的城市建造模擬遊戲,在遊戲中玩家將擁有一片廣大的區域,在其中你可以建造出屬於你的世界,修道院 居民區 紀念碑等建築全部在你的設計之...