數學之美 餘弦定理和新聞分類

2021-09-26 23:22:17 字數 1565 閱讀 4590

案例三角函式的美在生活中可以說是無處不在,下面就給大家介紹一下計算機用餘弦定理對新聞進行自動分類的基本方法。感興趣的小夥伴可以了解一下,你只用掌握初高中的知識就夠了!

什麼是餘弦定理?餘弦定理是描述三角形中三邊長度與乙個角的余弦值關係的數學定理。餘弦定理能讓我們在已知三個邊的情況下計算任意乙個角的余弦值。

現在有如下乙個三角形:

用餘弦定理求這個三角形的角a的余弦值為:

如果將三角形的兩條邊b和c看成是兩個以a為起點的向量,那麼上訴公式等價於如下圖,其中分母表示兩個向量的長度,分子是兩個向量的內積。

新聞分類是什麼?新聞分類,或者更廣義地將任何文字的分類,無非就是把相似的新聞歸入同一類中。

如果人來完成這個任務,那麼他首先會讀懂新聞,然後找出其特徵,最後和所有主題的特徵比較,歸入最相似的那個主題。比如一篇新聞的特徵是多次出現了「nba」、「絕殺」、「籃球之神」這些字眼,那麼這篇新聞的主題大概率就是體育。

但是計算機不同,計算機不可能讀懂新聞,對於它來說一篇新聞就是一串0,1序列。計算機如果想完成自動新聞分類,首先得用一組可計算的數字來表示一篇新聞的特徵,然後在找到乙個方法來計算這組數字的相似性,最後在用以上提到的人的分類方法進行分類。

同一類新聞的用詞都是相似的,不同類的新聞用詞各不相同。所以可以用新聞**現詞的重要性來體現一篇新聞的特徵,而每個詞的重要性可以用它的tf-ide值表示(tf-ide值的計算方法這裡就不講了,感興趣的小夥伴可以自己去研究)。

有了上訴的思路,將一篇新聞數位化的大概流程如下:

不同的文字,因為文字長度不同,它們的特徵向量的每個維度的數值也不同,一篇1000字的文字,各個維度都比一篇500字的文章來得大。所以比較各個維度的大小沒有意義,但是向量的方向卻很有意義。如果兩個向量的方向一致,說明相應的新聞用詞的比例基本一致。

而餘弦定理可以用來判斷兩個向量的方向是否一致。如果新聞x和y對應的向量分別是:

那它們的夾角等於:

余弦函式在區間[0,

π][0, \pi]

[0,π

]的影象如下圖,分析可得當余弦值越接近1的時候,兩個特徵向量的夾角越等於零,其方向越相同,兩條新聞的主題越相似。

以上就是用計算機自動進行新聞分類的基本原理。當然要真正解決這個問題還有很多東西需要考慮,比如如何提高演算法的執行效率、同乙個詞出現在新聞的不同位置的重要性不同。

數學之美 系列 12 餘弦定理和新聞的分類

2006年7月20日 上午 10 12 00 發表者 吳軍,google 研究員 餘弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新...

數學之美 系列 12 餘弦定理和新聞的分類

數學之美系列12 餘弦定理和新聞的分類 2006年7 月20日上午 10 12 00 發表者 吳軍,google 研究員餘弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相...

數學之美 系列 12 餘弦定理和新聞的分類

餘弦定理和新聞的分類 吳軍,google 研究員 餘弦定理和新聞的分類似乎是兩件八桿子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們...