開源英文詞庫

2021-09-29 01:25:22 字數 3312 閱讀 4595

word	單詞名稱

phonetic 音標,以英語英標為主

definition 單詞釋義(英文),每行乙個釋義

translation 單詞釋義(中文),每行乙個釋義

pos 詞語位置,用 "/" 分割不同位置 這個欄位我看貌似沒啥意思 ?

collins 柯林斯星級 ?

oxford 是否是牛津三千核心詞彙 ?

tag 字串標籤:zk/中考,gk/高考,cet4/四級 等等標籤,空格分割

bnc 英國國家語料庫詞頻順序 ?

frq 當代語料庫詞頻順序 ?

exchange 時態複數等變換,使用 "/" 分割不同專案,見後面**

detail json 擴充套件資訊,字典形式儲存例句(待新增) 這個在csv為空

audio 讀音音訊 url (待新增) 這個在csv為空

可以看到專案中詞庫內容是很全面的

中文釋義應該說非常的全面、核心的常見單詞其英文釋義基本上都有 上述的csv檔案還包含短語,缺少英文的例句和發音

重點講一下音訊的獲取,以上圖的鏈結介面為例

替換鏈結的somewords為需要的單詞 注意:1 全小寫 2 不支援空格 使用的2種方法

package cn.adminzero.helloword.util;

import android.media.mediaplayer;

import android.text.textutils;

import android.util.log;

/** * author : zhaojunchen

* date : 2019/11/1811:43

* desc : src detail

* mediaplayutil player = new mediaplayutil();

*/public class mediaplayutil

public mediaplayutil()

// 單詞發音

public boolean playword(string word)

final string url = geturl(word.trim().tolowercase());

new thread(new runnable()

mediaplayer.reset();

try catch (exception e)

}}).start();

return true;}}

使用方法

mediaplayutil mediaplayutil = new mediaplayutil();

mediaplayutil.play("yes");

mediaplayutil.play("no");

實現快速解析,需要乾掉逗號! 在csv檔案裡面 字串裡面是可能存在逗號的,這個和分隔符是衝突的 所以會在字串加上" ***xx,***xx" 區分逗號 如何識別分號包包裝的逗號和作為分割的都號?

首選替換逗號為乙個不出現的字元乙個在csv檔案裡面的字元 (這裡面我是用的#) 對檔案預處理、替換逗號

/**

* 對開源詞庫預處理

* 輸入 原檔案路徑 --> 目的檔案路徑

*/public static void preparecsv(string filename, string filename_des) throws exception else if (ch == ',' && isclose == 0) else if (ch == splitsymbol) else

}/**

* 捨棄短語

* */

tempstring = temp.tostring();

tempbuffer = tempstring.split(splitstring, -1);

if (tempbuffer.length != 14)

tempstring = tempbuffer[1].trim();

if (tempstring.contains(" "))

}fw.write(stringbuffer.tostring());

fw.close();

} catch (ioexception e)

}

下面的**使用tag欄位的值篩選出來zk gk cet4 cet6 … 到新的檔案

其他的處理使用相同的模板型別模板

public static void wordall(string a, string b) throws exception 

if (buffer8.contains("gk"))

if (buffer8.contains("cet4"))

if (buffer8.contains("cet6"))

if (buffer8.contains("toefl"))

if (buffer8.contains("ielts"))

if (buffer8.contains("gre"))

if (buffer8.contains("ky"))

if (tag == 0)

count++;

//buffer0 = buffer[0].trim() + splitstring;

buffer0 = string.valueof(count) + splitstring;

buffer1 = buffer[1].trim() + splitstring;

buffer2 = buffer[2].trim() + splitstring;

buffer3 = buffer[3].trim() + splitstring;

buffer4 = buffer[4].trim() + splitstring;

buffer11 = buffer[11].trim() + splitstring;

}} catch (ioexception ex)

filewriter fw = new filewriter(b);

fw.write(stringbuffer.tostring());

fw.close();

system.out.println(b + " items is " + count);

}

源**位址 : csvanalyz

英文詞頻統計

詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top10 word lately,i ve been,i ve been losing sleep dreaming about the things...

Coreseek自定義中文詞庫

進入 usr local mmseg3 etc,在這裡能看到這幾個檔案 mmseg.ini unigram.txt uni.lib unigram.txt是詞庫的文字檔案,uni.lib是mmseg真正使用的詞庫字典 我們可以在unigram.txt中增加我們想要的分詞,然後用mmseg u命令去重...

人簡歷英文詞彙

教育程度 education 學歷 educational background 教育程度 educational history 學歷 curriculum 課程 major 主修 minor 副修 educational highlights 課程重點部分 curriculum included...