資料探勘 文字分類(一) 綜述

2021-06-27 13:08:55 字數 746 閱讀 9804

本學期上了北郵王曉茹老師的資料倉儲與資料探勘課程,實驗一便是資料探勘入門級的實驗:文字分類。第一次自己寫**花了很長時間終於把實驗做完了,在這裡記錄一下。

一, 先簡單說下實驗的工具和環境。

**環境:python2.7

python學習建議廖雪峰老師的**:

分詞工具:中科院張華平博士的漢語詞法分析系統ictclas(institute of computing technology, chinese lexical analysis system)

中文語料庫:搜狗中文語料庫

文字訓練工具和測試工具:台灣大學林智仁(lin chih-jen)等開發設計的lib-svm

二,介紹一下實驗過程

好,我們現在開始實驗過程,首先搜狗中文語料庫是已經分好的類,我們把每一類的文章都一分為二,一類為訓練集,一類為測試集。所謂訓練集,既把這部分文章通過處理,提取出能代表這類文章的特徵,然後利用這些特徵去判斷測試集的文章屬於哪一類,由於測試集的每一篇文章屬於某類是已知的,我們就可以根據真實情況統計分類的正確率和召回率啦。

注:上圖來自北郵2013級某學長實驗報告,報告人的名字老師沒有提供,感謝學長。

今天先到這裡,有時間繼續哈。

貼一下學長的流程圖:

資料探勘 文字分類(五)

首先是取名詞,我們要把名詞取出來,是因為一篇文件,名詞最能夠代表這一篇文件屬於哪一類的,其他的形容詞,副詞之類的詞語並不能很好的代表某一類文件。所以要取名詞,這個當然是用正規表示式了。我們看一下分詞結果 名詞詞性的詞分詞工具會用n表示,那麼我們就用正規表示式去匹配n就好了。根據廖老師的python教...

基於DL的文字分類綜述

新聞分類系統可以幫助使用者實時獲取感興趣的資訊。識別新興新聞主題並根據使用者興趣推薦相關新聞是新聞分類的兩個主要應用。主題分析試圖通過識別文字主題來自動從文字中獲取含義。主題分類是主題分析最重要的組成技術之一。主題分類的目的是為每個文件分配乙個或多個主題,以使其更易於分析。問答系統有兩種型別 抽取式...

資料探勘競賽題目 文字分類

使用搜狗語料庫進行自動文字分類 新聞語料中類別與目錄的對應關係如下,共十大類別 在data資料夾中有訓練資料集 train 及測試資料集 test 其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。...