網路資訊檢索(九)文字分類與文字聚類

2021-10-05 14:35:00 字數 1735 閱讀 1725

二、文字分類

三、文字聚類

文字分類的定義

\color\textbf

文字分類的定義

文字分類在資訊檢索中的應用

\color\textbf

文字分類在資訊檢索中的應用

新聞分類

\color\textbf

新聞分類

情感分類

\color\textbf

情感分類

情感分析:自動對觀點的極性進行分類:

 正面(positive)、中性(neutral)、負面(negative)

 有時強度也是很重要的: weakly negative、strongly negative

有用的特徵

 單字詞(unigrams),雙字詞( bigrams)

 詞性標註

 形容詞

文字聚類的定義

\color\textbf

文字聚類的定義

文字聚類在資訊檢索中的應用

\color\textbf

文字聚類在資訊檢索中的應用

詞彙聚類

\color\textbf

詞彙聚類

檢索結果聚類

\color\textbf

檢索結果聚類

學習方法

\color\textbf

學習方法

自動分類的一般過程

\color\textbf

自動分類的一般過程

rocchio的性質

\color\textbf

rocchio

的性質

k個近鄰(nearest-neighbor)

\color\textbf

k個近鄰(

nearest-neighbor)

相似測度

\color\textbf

相似測度

貝葉斯分類

\color\textbf

貝葉斯分類

文字分類中的概率估計

\color\textbf

文字分類中的概率估計

平滑

\color\textbf

平滑 如果沒有任何先驗知識p = 1/|v|,m = |v|

演算法流程

\color\textbf

演算法流程

step1:初始化k個簇中心;

step2:對於每個文件向量,計算該文件向量與k個類中心的距離,選擇距離最小(相似度最大)的簇將該文件分入該簇;

step3:重新計算k個簇的中心,中心為該簇內所有點的算術平均。

step4:如果簇變化不大或者滿足某種退出條件(達到最大迭代次數、滿足某種目標函式等),那麼結束聚類,否則返回step2

2 2 文字分類專案

中文語言的文字分類技術和流程 文字預處理 1.選擇處理的文字的範圍 對於分類或聚類任務,往往將整個文件作為處理單位 對於情感分析 文件自動文摘或資訊檢索,段落或章節可能更合適 2.建立分類文字語料庫 目前比較好的中文分類語料庫有復旦大學譚松波中文文字分類語料庫和搜狗新聞分類語料庫 訓練集語料 分好類...

NLP(五)文字分類

1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...

NLP NO4 文字分類

載入停用詞,txt內容可以隨專案進行改變 stopwords pd.read csv stopword.txt index col false quoting 3,sep t names stopwords encoding utf 8 stopwords stopwords stopwords v...