文字主題提取

一、tf-idf模型

詞頻（tf）= 某個詞在文字中出現的次數/該文字中總詞數

或者一種變種的計算方法

詞頻（tf）= 某個詞在文字中出現的次數/該文字中出現次數最多的詞其出現的次數

逆向文件頻（idf）= log（語料庫中所有文件總數/（包含某詞的文件數+1））

注意

- 為了避免分母為0，所以在分母上加1

- 所指的詞個數，一定時刨除了停用詞的計算，甚至時專門的詞表

- 這裡的log，可以取log10、log2甚至時log e，根據實際效果調整

應用場景t

按照完整句子進行分割，即t=

[s1,

s2,.

..,s

n]2. 對於每個句子si

，進行分詞和詞性標註處理，並過濾掉停用詞，只保留指定詞性的單詞，如名詞、動詞、形容詞，即si

=[ti

,1,t

i,2,

...,

ti,n

] ，其中ti

,j g

=(v,

e)，其中v

k表示視窗大小，即最多共現k

核心思想：認為每一篇文件doc都是由多個主題topic組成，而每乙個主題topic由多個詞word組成。

通過對語料庫d中所有文件進行分詞或者抽詞處理之後，通過模型訓練，得到兩個概率矩陣：一是每乙個doc對應k個topic的概率；二是每乙個topic對應n個詞組成的詞表的概率。

文字主題模型之潛在語義索引 LSI

在文字挖掘中，主題模型是比較特殊的一塊，它的思想不同於我們常用的機器學習演算法，因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中，我們經常會進行非監督學習的聚類演算法，它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法，目的...

文字主題與分類（二）關鍵詞抽取

import jieba.analyse as analyse import pandas as pd df pd.read csv data technology news.csv encoding utf 8 讀取科技類新聞 df df.dropna 去除殘缺資料 lines df.conten...

主題提取解決方案

用python網路爬蟲和nlp工具構建資料集爬取過程呼叫api查詢文章的元資料，包括每篇文章的url 每個url傳送請求，找到的正文文字，提取出來。清理文章文字，去除停用詞和標點使用scikit learn的it idf vectorizer模組非負矩陣分解 non negative m...

文字主題提取

文字主題模型之潛在語義索引 LSI

文字主題與分類（二） 關鍵詞抽取

主題提取 解決方案

相關推薦

文字主題與分類（二）關鍵詞抽取

主題提取解決方案