文字主題提取

2021-08-14 14:43:35 字數 861 閱讀 5126

一、tf-idf模型

詞頻(tf)= 某個詞在文字中出現的次數/該文字中總詞數

或者一種變種的計算方法

詞頻(tf)= 某個詞在文字中出現的次數/該文字中出現次數最多的詞其出現的次數

逆向文件頻(idf)= log(語料庫中所有文件總數/(包含某詞的文件數+1))

注意

- 為了避免分母為0,所以在分母上加1

- 所指的詞個數,一定時刨除了停用詞的計算,甚至時專門的詞表

- 這裡的log,可以取log10、log2甚至時log e,根據實際效果調整

應用場景t

按照完整句子進行分割,即t=

[s1,

s2,.

..,s

n]2. 對於每個句子si

,進行分詞和詞性標註處理,並過濾掉停用詞,只保留指定詞性的單詞,如名詞、動詞、形容詞,即si

=[ti

,1,t

i,2,

...,

ti,n

] ,其中ti

,j g

=(v,

e),其中v

k表示視窗大小,即最多共現k

核心思想:認為每一篇文件doc都是由多個主題topic組成,而每乙個主題topic由多個詞word組成。

通過對語料庫d中所有文件進行分詞或者抽詞處理之後,通過模型訓練,得到兩個概率矩陣:一是每乙個doc對應k個topic的概率;二是每乙個topic對應n個詞組成的詞表的概率。

文字主題模型之潛在語義索引 LSI

在文字挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法,目的...

文字主題與分類(二) 關鍵詞抽取

import jieba.analyse as analyse import pandas as pd df pd.read csv data technology news.csv encoding utf 8 讀取科技類新聞 df df.dropna 去除殘缺資料 lines df.conten...

主題提取 解決方案

用python網路爬蟲和nlp工具構建資料集 爬取過程 呼叫api查詢文章的元資料,包括每篇文章的url 每個url傳送 請求,找到 的正文文字,提取出來。清理文章文字,去除停用詞和標點 使用scikit learn的it idf vectorizer模組 非負矩陣分解 non negative m...