復旦大學中文語料庫的一些統計資訊

2021-05-21 20:51:21 字數 389 閱讀 6738

復旦大學的中文語料庫分為訓練集和驗證集兩部分,兩部分的文件數量基本相等,但現在做測評一般都不採用這種預先劃分的方法,而多用交叉驗證,因此在將訓練集與驗證集合並之後,得到該語料庫的一些基本資訊如下:

類別總數量:20

文件總數量:19637

類別名稱(類別**):文件數量

同時,在使用ictclas4j分詞包對其進行的過程中,發現復旦語料庫中存在一些文章會使得ictclas4j報錯,其中因為分詞包本身字型檔缺少某些文字,以及一些神秘的字元組合(確實很神秘)會導致分詞過程出錯,因此能夠被成功分詞而供後續使用的文件數並不如上面所列這麼多,再後續的文章裡,我會提供這些能夠被分詞的文件的相關資料,同時也會提供ictclas4j的一些小bug及解決方法的提示,可能的話,還會提供經過分詞的可以直接使用的復旦語料庫。

復旦大學的院 系 所有多少?

復旦大學的院 系 所 中心 復旦的院 系 所 中心很多很多,也很雜,且很難分類。這是2018年2月12日的統計結果,分類為我所新增,不一定有理 文科 復旦學院 中國語言文學系 哲學學院 歷史學系 旅遊學系 文物和博物館學系 外國語言文學學院 法學院 國際關係與公共事務學院 新聞學院 經濟學院 管理學...

2023年復旦大學機試題

第一題 給定兩個字串,求最大公共字串的長度。自己寫個範例 輸入 abcabckk 2oabcabc 輸出 6 用兩個for和string.find 就可以暴力破解了。include include include using namespace std intmain cout maxlen ret...

2023年復旦大學961真題回顧

兩天考下來,已經要了老子半條命,浪也浪不起來了 考研辛苦,敬各位考研人!1 列舉排序演算法,穩定和不穩定各兩個,時間複雜度 10分 2 prim最小生成樹,描述構建過程 15分 3 填空題4空,最短距離dijskra 15分 4 程式設計 二叉樹中,砍掉乙個子樹,求砍掉子樹的和與剩餘樹和的乘機最大 ...