開源英文詞庫

word 單詞名稱 phonetic 音標，以英語英標為主 definition 單詞釋義（英文），每行乙個釋義 translation 單詞釋義（中文），每行乙個釋義 pos 詞語位置，用 "/" 分割不同位置這個欄位我看貌似沒啥意思？ collins 柯林斯星級？ oxford 是否是牛津三千核心詞彙？ tag 字串標籤：zk/中考，gk/高考，cet4/四級等等標籤，空格分割 bnc 英國國家語料庫詞頻順序？ frq 當代語料庫詞頻順序？ exchange 時態複數等變換，使用 "/" 分割不同專案，見後面** detail json 擴充套件資訊，字典形式儲存例句（待新增）這個在csv為空 audio 讀音音訊 url （待新增）這個在csv為空

可以看到專案中詞庫內容是很全面的

中文釋義應該說非常的全面、核心的常見單詞其英文釋義基本上都有上述的csv檔案還包含短語，缺少英文的例句和發音

重點講一下音訊的獲取，以上圖的鏈結介面為例

替換鏈結的somewords為需要的單詞注意：1 全小寫 2 不支援空格使用的2種方法

package cn.adminzero.helloword.util;
import android.media.mediaplayer;
import android.text.textutils;
import android.util.log;
/** * author : zhaojunchen
* date : 2019/11/1811:43
* desc : src detail
* mediaplayutil player = new mediaplayutil();
*/public class mediaplayutil 
public mediaplayutil() 
// 單詞發音
public boolean playword(string word) 
final string url = geturl(word.trim().tolowercase());
new thread(new runnable() 
mediaplayer.reset();
try catch (exception e) 
}}).start();
return true;}}

使用方法
mediaplayutil mediaplayutil = new mediaplayutil（）; 
mediaplayutil.play("yes");
mediaplayutil.play("no");

實現快速解析，需要乾掉逗號！在csv檔案裡面字串裡面是可能存在逗號的，這個和分隔符是衝突的所以會在字串加上" ***xx，***xx" 區分逗號如何識別分號包包裝的逗號和作為分割的都號？

首選替換逗號為乙個不出現的字元乙個在csv檔案裡面的字元（這裡面我是用的#）對檔案預處理、替換逗號

/**
* 對開源詞庫預處理
* 輸入 原檔案路徑 --> 目的檔案路徑 
*/public static void preparecsv(string filename, string filename_des) throws exception else if (ch == ',' && isclose == 0) else if (ch == splitsymbol) else 
}/**
* 捨棄短語
* */
tempstring = temp.tostring();
tempbuffer = tempstring.split(splitstring, -1);
if (tempbuffer.length != 14) 
tempstring = tempbuffer[1].trim();
if (tempstring.contains(" ")) 
}fw.write(stringbuffer.tostring());
fw.close();
} catch (ioexception e) 
}

下面的**使用tag欄位的值篩選出來zk gk cet4 cet6 … 到新的檔案

其他的處理使用相同的模板型別模板

public static void wordall(string a, string b) throws exception 
if (buffer8.contains("gk")) 
if (buffer8.contains("cet4")) 
if (buffer8.contains("cet6")) 
if (buffer8.contains("toefl")) 
if (buffer8.contains("ielts")) 
if (buffer8.contains("gre")) 
if (buffer8.contains("ky")) 
if (tag == 0) 
count++;
//buffer0 = buffer[0].trim() + splitstring;
buffer0 = string.valueof(count) + splitstring;
buffer1 = buffer[1].trim() + splitstring;
buffer2 = buffer[2].trim() + splitstring;
buffer3 = buffer[3].trim() + splitstring;
buffer4 = buffer[4].trim() + splitstring;
buffer11 = buffer[11].trim() + splitstring;
}} catch (ioexception ex) 
filewriter fw = new filewriter(b);
fw.write(stringbuffer.tostring());
fw.close();
system.out.println(b + " items is " + count);
}

源**位址 : csvanalyz

開源英文詞庫

英文詞頻統計

Coreseek自定義中文詞庫

人簡歷英文詞彙

開源英文詞庫

英文詞頻統計

Coreseek自定義中文詞庫

人簡歷英文詞彙

相關推薦