nodejs在自然語言處理中的一些小應用

nodejs做自然語言處理是非常可行的，這次我做了一些小小的嘗試，一起來體驗一下吧。

對每一篇文章進行快速的內容理解，根據標題和內容，輸出多個內容標籤；

對文章按照內容進行自動分類，為文章聚類、文字內容分析等提供基礎；

根據文章標題、使用者自定義標籤、以及人工智慧獲得到的標籤，進行相似度計算；

下面給出自動輸出內容標籤的結果圖：

執行環境：centos9 + docker

開發語言：nodejs

資料庫：mariadb

開發框架：eggjs + nunjucks（模板引擎）

這次也是我第一次做後端渲染的部落格，ajax的**，做seo是真的不好做…

然後這次也是我第一次正兒八經的用了下阿里大佬們的eggjs，這種「洋蔥模型」的框架，我真的是超級喜歡，不管是用es7優雅地處理js非同步，還是經典的mvc，還是框架的外掛程式機制等等。確實是超級贊的。如果有喜歡nodejs的同志，強力推薦此框架。

我覺得乙個好的推薦系統應該更「懂」人，假如我最近乙個月前買了一部手機，我希望能給我推送一些手機配件，而不是在給我推送一部手機，這個時候我買手機配件的概率是遠遠大於在買一部手機的。現在很多推薦系統，都是通過使用者畫像，加上各種埋點，使用者運算元據，從而進行分析推送的。我覺得未必不可以在此基礎上加上情感分析，多乙個維度，或許能夠得到更準確的資料。

說了這麼多，我覺得還是有很多瓶頸存在的?，現在的ai就像很多年前的移動網際網路，正處於上公升期。我們還有很多事情可以做。

下面進入今天的真題…

圖中右側部分就是我們這個文章推送系統的推送結果，我們用不同的顏色標註了這篇文章和當前正在瀏覽的文章的關聯度，顏色越深表示關聯度越高，置信度越高，權重越大。

這個推薦系統中主要使用了上面所說的第三點：相似度計算；使用的數學模型為空間向量模型，空間向量模型能夠將非結構化的文字資料轉換成向量形式，表示成向量形式之後能為之後的處理過程打下良好的數學基礎。

空間向量模型，幫助我們把每篇文件轉化為乙個多維的空間向量形式：

!)(其中，向量 w1i表示第乙個詞佔文件 ci的比重，向量 w2i表示第二個詞佔文件 ci的比重，依次類推，向量 wti表示第 t 個詞佔文件 ci的比重。

兩個文件的余弦值越接近 1，這兩個文件則越相似。

下面給出計算相似度的關鍵**：

nodejs在自然語言處理中的一些小應用

自然語言處理

自然語言處理

自然語言處理

相關推薦