THUOCL 清華大學開放中文詞庫

2021-08-16 03:22:03 字數 1877 閱讀 4352

thuocl(thu open chinese lexicon)是由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫,詞表來自主流**的社會標籤、搜尋熱詞、輸入法詞庫等。thuocl具有以下特點:

包含詞頻統計資訊df值(document frequency),方便使用者個性化選擇使用。

詞庫經過多輪人工篩選,保證詞庫收錄的準確性。

開放更新,將不斷更新現有詞表,並推出更多類別詞表。歡迎專業人士加入,協作建設開放詞庫,有意者請致信[email protected]

該詞庫可以用於中文自動分詞,提公升中文分詞效果。建議搭配本組研製開發的thulac工具包使用,提公升特定領域中文分詞的效果。

詞庫每一行由兩部分組成,分別是詞和df值(存在此單詞的文件個數),中間由tab間隔。

詞頻統計語料庫:

搜狗語料 文件數:729008561it

詞表簡介:本詞表包含了大量it類詞彙。

詞條數量:16000條

詞頻統計語料庫:csdn部落格

貢獻者:馬雲山、韓世依、張鈺暉 財經

詞表簡介:本詞表包含了大量財經類詞彙。

詞條樣例:年期、調整方案、全面收購、差價、萎縮。

詞條數量:3830條

貢獻者:韓世依、張鈺暉、馬雲山 成語

詞表簡介:本詞表包含了大量成語詞彙。

詞條樣例:故作高深、有理有據、用之不竭、人微言輕、因地制宜、求賢若渴。

詞條數量:8519條

貢獻者:韓世依、張鈺暉、馬雲山 地名

詞表簡介:本詞表包含了大量地名詞彙。

詞條樣例:浙江、上海、澳大利亞、珠穆朗瑪峰、湘潭縣、大甲鎮。

詞條數量:44805條

詞頻統計語料庫:搜狗語料

貢獻者:韓世依、張鈺暉、馬雲山

歷史名人

詞表簡介:本詞表包含了大量歷史名人類詞彙。

詞條樣例:陸游、荀彧、諸葛亮、孫權、張伯倫。

詞條數量:13658條

貢獻者:韓世依、張鈺暉、馬雲山 詩詞

詞表簡介:本詞表包含了大量詩詞名句。

詞條數量:13703條

貢獻者:張鈺暉、韓世依、馬雲山 醫學

詞表簡介:本詞表包含了大量醫學類詞彙。

詞條樣例:患者、充血、皮疹、冬蟲夏草。

詞條數量:18749條

貢獻者:張鈺暉、韓世依、馬雲山 飲食

詞庫簡介:本詞庫包含了大部分飲食類詞彙。

詞條樣例:土豆、火鍋、義大利面、果佳、猴頭菇。

詞條數量:8974條

詞頻統計語料庫:搜狗語料

貢獻者:王盟源、吳佼玉、黃偉傑,林永天 法律

詞庫簡介:本詞庫包含了大部分法律類詞彙。

詞條樣例:版權、有關部門、有限責任公司、土地審裁處法官、日本莊園制度。

詞條數量:9896條

詞頻統計語料庫:搜狗語料

貢獻者:王盟源、吳佼玉、黃偉傑,林永天 汽車

詞庫簡介:本詞庫包含了大部分汽車類詞彙。

詞條樣例:轎車、車展、東風本田、前擋風玻璃、四川豐田。

詞條數量:1752條

詞頻統計語料庫:搜狗語料

貢獻者:王盟源、吳佼玉、黃偉傑,林永天 動物

詞庫簡介:本詞庫包含了大部分動物類詞彙。

詞條樣例:信鴿、梅花鹿、街鴿、四方藤、斑尾林鴿。

詞條數量:17287條

詞頻統計語料庫:搜狗語料

貢獻者:王盟源、吳佼玉、黃偉傑,林永天

thuocl面向國內外大學、研究所、企業、機構以及個人免費開放,可用於研究與商業。

歡迎對該工具包提出任何寶貴意見和建議。請發郵件至[email protected]

如果您在thuocl基礎上發表**或取得科研成果,請您在發表**和申報成果時宣告「使用了清華大學開放中文詞庫」,並按如下格式引用:

蓋茨清華大學演講

尊敬的顧校長,清華大學的老師 同學們 獲得清華大學這所世界一流大學的榮譽博士學位,讓我感到非常榮幸。清華是所有著百年歷史的名校,這裡誕生了很多傑出的科學家 商業和政治領袖。我上一次造訪貴校是在1997年。當時,貴校學生的才華 熱情和創造性給我留下了很深的印象。之後,我決定在中國設立微軟研究院。在沈向...

清華大學 自學能力

一 永遠不要說你已經盡力了 我在高中時體育特別差,跑1000公尺都很要命,從來都是不及格。到了清華之後,第一節體育課,老師告訴我們每年要測3000公尺長跑,跑不過不許畢業,取消推研資格。怎麼辦?於是每天晚上10 30,我們的自習教室關門,操場上的人就多起來了。跑半個小時再回寢室繼續學習,練了乙個學期...

查詢學生資訊 清華大學

牛客網題目鏈結 排序題。先儲存再查詢 include include include include include include include include include include using namespace std const int n 1005 typedef pair i...