資料探勘競賽題目 文字分類

2021-07-13 11:40:22 字數 410 閱讀 2272

使用搜狗語料庫進行自動文字分類

新聞語料中類別與目錄的對應關係如下,共十大類別:

在data資料夾中有訓練資料集(train)及測試資料集(test),其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。

構建優秀的分類器,將test目錄中文件進行自動歸類

提交最終分類結果,即將test中的各個文件自動劃分到c000007、c000008、….、 c000024等目錄後打包提交.

評分演算法:f1-measure: f1

=2p∗

rp+r

,p是準

確率,r

是召回率

對於每個類別分別單獨計算其f1值,然後求10個類別的f1平均值作為最終評分結果。

資料探勘競賽題目 電影推薦

通過對使用者評分行為的分析,挖掘使用者的興趣及其變化規律,然後 使用者對其他電影的評分。本次比賽,我們提供了1千萬左右的電影評分資料,每條評分記錄都有時間戳 隱匿了具體時間,只保證順序不變 評分分為5級,1分最低,5分最高。我們抽取了超過800萬條評分記錄,作為訓練集,資料檔案名為r1.train,...

資料探勘 文字分類(五)

首先是取名詞,我們要把名詞取出來,是因為一篇文件,名詞最能夠代表這一篇文件屬於哪一類的,其他的形容詞,副詞之類的詞語並不能很好的代表某一類文件。所以要取名詞,這個當然是用正規表示式了。我們看一下分詞結果 名詞詞性的詞分詞工具會用n表示,那麼我們就用正規表示式去匹配n就好了。根據廖老師的python教...

資料探勘 文字分類(一) 綜述

本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程,實驗一便是資料探勘入門級的實驗 文字分類。第一次自己寫 花了很長時間終於把實驗做完了,在這裡記錄一下。一,先簡單說下實驗的工具和環境。環境 python2.7 python學習建議廖雪峰老師的 分詞工具 中科院張華平博士的漢語詞法分析系統ictcla...