NLP常用語料集合

2022-06-16 09:42:12 字數 476 閱讀 5780

2023年秋天北京大學網路與分布式實驗室天網小組通過動員不同專業的幾十個學生,人工選取形成了乙個全新的基於層次模型的大規模中文網頁樣本集。它包括11678個訓練網頁例項和3630個測試網頁例項,分布在11個大類別中。

將預料庫進行分詞並去掉停用詞,常用分詞工具有:

standardanalyzer(中英文)、chineseanalyzer(中文)、cjkanalyzer(中英文)、ikanalyzer(中英文,相容韓文,日文)、paoding(中文)、mmanalyzer(中英文)、mmseg4j(中英文)、imdict(中英文)、nltk(中英文)、jieba(中英文)。

原始語料

訓練語料

所有的詞向量由 ngram2vec 工具包訓練。ngram2vec 工具包是word2vec和 fasttext 工具包的超集合,其支援抽象上下文特徵和模型。

ngram2vec:

word2vec:

fasttext:

Oracle Oracle常用語句集合

1.快速統計大表記錄數 select table name,t.num rows,t.last analyzed from tabs t where table name table name 可能統計的不是很準確,在統計前先在command下面執行exec dbms stats.gather ta...

mongodb 常用語句 集合操作

檢視集合幫助 db.songs.help 檢視集合總資料量 db.songs.count 檢視表空間大小 db.songs.datasize 檢視集合所在資料庫 db.songs.getdb 建立集合 集合中必須產生過資料 db.music db.music.insert db.music.coun...

php mysql 常用語句 mysql常用語句

一 修改mysql使用者密碼 mysql h localhost u root p 命令列登入 update user set password password 123456 where user root 二 資料庫操作 show databases 顯示資料庫 create database ...