google的新聞 文章 分類演算法

2021-05-25 00:36:39 字數 800 閱讀 6383

原文:

google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們設計乙個演算法來算出任意兩篇新聞的相似性。為了做到這一點,我們需要想辦法用一組數字來描述一篇新聞。

對於一篇新聞中的所有實詞,我們可以計算出它們的單文字詞彙頻率/逆文字頻率值(tf/idf)。不難想象,和新聞主題有關的那些實詞頻率高,tf/idf 值很大。我們按照這些實詞在詞彙表的位置對它們的 tf/idf 值排序。比如,詞彙表有六萬四千個詞,分別為

單詞編號 漢字詞

------------------

1 阿2 啊

3 阿斗

4 阿姨

...789 服裝

....

64000 做作

在一篇新聞中,這 64,000 個詞的 tf/idf 值分別為

單詞編號 tf/idf 值

**********====

1 02 0.0034

3 04 0.00052

5 0...

789 0.034

...64000 0.075

如果單詞表中的某個次在新聞中沒有出現,對應的值為零,那麼這 64,000 個數,組成乙個64,000維的向量。我們就用這個向量來代表這篇新聞,並成為新聞的特徵向量。如果兩篇新聞的特徵向量相近,則對應的新聞內容相似,它們應當歸在一類,反之亦然。

學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。

ecshop文章分類頁面呼叫文章的內容

有的時候需要用到,所以總結了一下。開啟includes lib article.php檔案 紅色部分為新增的部分 function get cat articles cat id,page 1,size 20 requirement else 增加搜尋條件,如果有搜尋內容就進行搜尋 if requi...

樸素貝葉斯演算法對新聞進行分類

from sklearn.datasets import fetch 20newsgroups 載入資料 news fetch 20newsgroups data home r e jupyter workspace subset all downloading 20news dataset.thi...

餘弦定理和新聞的分類

餘弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們設計乙個演算法來算出任意兩篇新聞的相似性。為了做到...