實現文字自動分類的基礎 Term頻率計算方法

2021-04-01 10:38:05 字數 1176 閱讀 4685

據說如今網際網路上的文件每天以100萬的數量增長,這麼大的增長量使得google可能需要1個月甚至更長的時間才能光顧你的**一次。所以如果你今天對你的網頁做了優化,那麼1個月後在看google的反應吧。這真是資訊**的年代。網際網路剛誕生的時候,通過目錄導航機制,我們就能找到所需要的資訊,yahoo抓住這個機會成功了;後來隨著網際網路的普及,資訊**的速度讓目錄導航失去了效應,google抓住了這個機會,提出有特色搜尋演算法,讓人們不理會目錄機制也能找到資訊,google也成功了。可是正如我們不能有了網際網路就把報紙丟棄一樣,目錄導航的機制仍然發揮著作用。觀察一下google的推出的個性搜尋服務就可以發現,為了讓使用者搜尋的內容更相關,google正鼓勵你使用預定搜尋頻道。也就是說搜尋的目錄分類機制仍然存在,但是不直接面對終端使用者,而是面對搜尋引擎,即根據文件內容自動分類。

根據文件內容自動分類的方法有很多種,本文介紹一下term頻率計算方法。

向量空間模型的基本思想是把文件看成乙個根據其中字詞出現頻率權重的向量.為了減少資訊的噪音,這裡面的字詞需要經過如下步驟的處理:

1、對文件進行分詞,取出文件中包含的所有字詞(term);

2、消除掉沒有意義的字詞(term),比如漢語的:是,的 等;

3、統計計算每個字詞(term)出現的頻率;

4、根據需要過濾掉出現頻率高的那部分詞(term)和出現頻率低的那部分詞(term)(類似綜藝節目中去掉最高分和最低分的做法);

5、處理到這步後,我們假設一共有w個最終的字詞,然後對這些字詞分別標註乙個唯一的標記。

處理到這一步,後面的步驟就依演算法的不同而各異了。但有乙個共同的特點,就是必須依賴字詞(term)的權重。字詞的權重直接依賴於他們出現的頻率。因為我們要分析的是成千上萬的文件,所以字詞在乙個文件中出現的頻率並不能說明問題,因此在考慮字詞權重的時候也要考慮多個文件的因素。

現在我們抽象的考慮一下:

1、假設需要處理的文件是乙個d物件的集合;

2、分類就是乙個模糊的a描述,a就是乙個d的子集;

3、我們分類的難點就是區分d物件更加傾向於那個子集a(分類)。

所以這樣看來決定字詞權重的應該包括下面3個部分:

1、字詞本身出現的頻率因素,確定字詞在當前文件中的重要程度;

2、文件長度的因素;

3、全部文件包含term出現的頻率,確定字詞在全部文件中的重要程度;

如果能比較準確的得到字詞的頻率,再加上統計的方法,對文件歸類就應該更加準確吧。

實現文字自動分類的基礎 Term頻率計算方法

實現文字自動分類的基礎 term頻率計算方法 據說如今網際網路上的文件每天以100萬的數量增長,這麼大的增長量使得google可能需要1個月甚至更長的時間才能光顧你的 一次.所以如果你今天對你的網頁做了優化,那麼1個月後在看google的反應吧.這真是資訊 的年代.網際網路剛誕生的時候,通過目錄導航...

實現文字分類的過程

資料集的預處理 去停用詞,過濾標點,空格分隔並去掉標點,大小寫統一等 詳細請參考 將原始資料轉換為特徵向量,為了從資料集中選出重要的特徵,有以下幾種方式 特徵工程詳情請見 詞嵌入作為特徵 基於文字 nlp的特徵 主題模型作為特徵 樸素貝葉斯分類器 線性分類器 支援向量機 淺層神經網路 深層神經網路 ...

基於svm的中文文字自動分類系統

首先介紹一下流程 1.先使用中科院的分詞器ictlas對訓練集進行分詞 2.將所有的詞構建成乙個字典,以label item的形式,後面svm要用到。如 1 中國 3.提取特徵詞,由於並不是每個詞都是有用的,因此要提取出特徵詞,主要提取名詞,動詞,動名詞,和使用者自定義的詞。由於採用了中科院的分詞演...