折騰詞庫,乙個詞庫互轉程式

2022-02-03 20:31:40 字數 750 閱讀 7196

經過兩天的努力,終於完成了我的詞庫轉換小工具,將現有詞庫的以文字格式匯出,然後選擇源詞庫格式和新詞庫格式,單擊「轉換」按鈕即可詞庫格式的轉換。放出程式截圖如圖所示:

目前我這個轉換小工具還只支援純文字格式的詞庫,因為對於搜狗細胞詞庫(scel格式)和qq分類詞庫(qpyd格式)我沒有具體的解析這些詞庫的演算法或者程式集,所以無法解析成文字並進行轉換。如果大家誰知道怎麼解析搜狗細胞詞庫和qq分類詞庫的話還希望不吝賜教!

對於沒有拼音的文字詞庫,程式會找到每個字的拼音,自動生成帶拼音的詞庫,這裡面有乙個問題是出現多音字怎麼辦?我在高階設定中給出了乙個「忽略多音字」的選項,預設是選中的,所以會導致很多詞的拼音是錯誤的,比如「**」會被拼寫成「yin le」,因為樂是多音字,只取了其乙個音「le」。如果取消了「忽略多音字」選項,那麼所有的多音字的拼音就都會出現在詞庫中,形成詞條中多音字的所有組合,如圖所示:

本來1895個詞條,經過多音字的組合,就變成了7597條!這樣導致詞庫變得太大,而且輸入法處理起來也困難,所以不建議使用。對於詞條中多音字的處理不知道大家還有沒有更好的辦法能夠獲得乙個詞的準確拼音,不要將「**」變成「yin le」了。

另外我還設定了詞條長度的篩選功能,將單個字的詞條、長度大於指定長度的詞條都篩選掉,不進行轉換。

用乙個詞 TASPK 牢記C程式記憶體布局

乙個典型的c程式記憶體布局,從低位址到高位址分別為 1.text 正文段,即 段 code segment 2.data 已經初始化的資料段 3.bss 未被初始化的資料段 block started by symbol 4.heap 堆 5.stack 棧 注1 上圖中的code segement...

用c 寫的乙個詞典工具

使用的qt圖形介面,用libcurl獲取的網頁,在之中遇見了很多問題,一直想用c 類封裝一下libcurl,發現c 很不到家啊。索性用了友元函式。先貼上 吧 main.cpp include stdio.h include stdlib.h include unistd.h include curl...

用c 寫的乙個詞典工具

使用的qt圖形介面,用libcurl獲取的網頁,在之中遇見了很多問題,一直想用c 類封裝一下libcurl,發現c 很不到家啊。索性用了友元函式。先貼上 吧 main.cpp using namespace std include dict.h file fp 定義file型別指標 size t w...