hanLP演算法之一 TF IDF演算法記錄

2021-08-31 06:49:45 字數 488 閱讀 9456

用來計算乙個詞在文章中的權重等…

tf:詞頻,乙個詞在文章中出現的頻率

比如:"軟體"在一篇文件中出現3次,這篇文件總共有100個單詞,則詞頻(tf)為:3/100=0.03

逆文件頻率(idf):該詞在該文件集中多少篇文件出現,並取比例對數

比如:"軟體"一詞在1000份文件中出現,該文件集中有10000000份文件,則**逆向檔案頻率(idf)**為lg(10000000/1000)=4

則該詞的tf-idf分數為 0.03*4=0.12

某個詞對文章重要性越高,他的tf-idf值就越大

注意:如果想比較兩個詞的重要性大小或排序,則計算idf時必須取相同的底數,否則沒有比較意義,比如都以10為底

下面介紹演算法原理:

為什麼取對數?為什麼tf,idf相乘?

算符優先系列之 一 Firstvt和Lastvt集

算符優先系列之 一 firstvt和lastvt集 time limit 1000 ms memory limit 65536 kib problem description 學過編譯原理的菊苣們都知道算符優先文法,作為乙個有點深度的分析方法,我們怎麼能只止步於理論呢,實踐才是王道哦。已知文法g s...

重寫排序演算法之一

1.快速排序 def partition a,p,q x a p i p for j in xrange p 1,q 1 if a j 0 and a j key a j 1 a j j 1 a j 1 key a 32,5,46,57,68,34,5,768,3,234,123,35,2,1 in...

有道演算法題之一

乙個大公司的筆試題目如下 題目如下 寫乙個類,實現這樣乙個方法,此方法給定兩個引數n l 均為整數 n是乙個自然數,l表示乙個長度。要求此函式輸出乙個最小長度的連續數的陣列,此陣列的幾個連續數的和要等於給定的n,並且該陣列的長度 要大於等於給定的l。如沒有滿足該條件的則返回乙個空陣列 eg1 18,...