統計自然語言處理 文字分類

2021-08-10 01:15:03 字數 500 閱讀 2881

文字表示有向量空間模型,片語表示法,概念表示法

目前文字通常採用向量空間模型表示

( 向量空間模型( vsm) ) 給定乙個文件d( t1,

w1;t2, w2;…;tn, wn) , d符合以下兩條約定:

( 1) 各個特徵項tk( 1≤k≤n) 互異( 即沒有重複) ( 2) 各個特徵項tk無先後順序關係( 即不考慮文件的內部結構) 。

在以上兩個約定下, 可以把特徵項t1, t2, …, tn看成乙個n維座標

系, 而權重w1, w2, …, wn為相應的座標值, 因此, 乙個文字就表示為n維空間中的乙個向量。 我們稱d=d( w1, w2, …, wn) 為文字d的向量表示或向量空間模型;

向量(文件)的相似度

向量空間模型步驟

根據訓練樣本集生成 文字表示所需要的特徵項序列d=

對訓練集和測試集文件進行權重賦值

文件特徵選擇

特徵權重計算

自然語言處理 搭建文字分類器

乙個完整的文字分類器主要由兩個階段,一是將文字向量化,將乙個字串轉化成向量形式 二是將向量喂到分類器,包括svm,cnn,lstm等等。這邊做的專案其實階段用的是 tf idf 來進行文字向量化,使用卡方校驗 chi square 來降低向量維度,使用liblinear 採用線性核的svm 來進行分...

五 自然語言處理中的文字分類

機器學習的過程是訓練模型和使用模型的過程,訓練就是基於已知資料做統計學習,使用就是用統計學習好的模型來計算未知的資料。機器學習分為有監督學習和無監督學習,文字分類也分為有監督的分類和無監督的分類。有監督就是訓練的樣本資料有了確定的判斷,基於這些已有的判斷來斷定新的資料,無監督就是訓練的樣本資料沒有什...

NLP自然語言處理 文字分類之評價指標

準確率關注整體效果,只適合均衡的資料。準確率公式如下 a cc urac y 預測 正確的樣 本數總樣 本數 accuracy frac accura cy 總 樣本數預 測正確的 樣本數 資料不均衡時使用以下的評價指標。精確率關注模型 得準不准。精確率公式如下 p re cisi on 預 測正確...