玩轉資料系列六 文字分析演算法實現新聞自動分類

2021-09-23 19:48:08 字數 1584 閱讀 5992

新聞分類是文字挖掘領域較為常見的場景。目前很多**或是內容生產商對於新聞這種文字的分類常常採用人肉打標的方式,消耗了大量的人力資源。本文嘗試通過智慧型的文字挖掘演算法對於新聞文字進行分類。無需任何人肉打標,完全由機器智慧型化實現。

具體字段如下:

欄位名含義

型別描述

category

新聞型別

string

體育、女性、社會、軍事、科技等

title

標題string

新聞標題

content

內容string

新聞內容

資料截圖:

首先,實驗流程圖:

實驗可以大致分為五個模組,分別是增加序號列、停用詞過濾、分詞及詞頻統計、文字主題挖掘、結果分析和評估。

本文的資料來源輸入是以單個新聞為單元,需要增加id列來作為每篇新聞的唯一標識,方便下面的演算法進行計算。

這兩步都是文字挖掘領域最常規的做法,首先利用分詞控制項對於content欄位,也就是新聞內容進行分詞。去除過濾詞之後(過濾詞一般是標點符號及助語),對於詞頻進行統計。

如下圖:

停用詞過濾功能用於過濾輸入的停用詞詞庫,一般過濾標點符號以及對於文章影響較少的助語等。

在上一步完成了文字轉數字的過程,下一步資料進入plda演算法。plda演算法又叫主題模型,演算法可以定位代表每篇文章的主題的詞語。本次試驗設定了50個主題,plda有六個輸出樁,第五個輸出樁輸出結果顯示的是每篇文章對應的每個主題的概率。如圖:

上一步把文章從主題的維度表示成了乙個向量。接下來就可以通過向量的距離實現聚類,從而實現文章分類。我們這裡可以簡單看一下分類的結果。檢視k均值聚類元件的結果,cluster_index表示的是每一類的名稱。找到第0類,一共有docid為115,292,248,166四篇文章。

免費體驗:阿里雲數加機器學習平台

往期文章:

【玩轉資料系列一】人口普查統計案例

【玩轉資料系列二】機器學習應用沒那麼難,這次教你玩心臟病**

【玩轉資料系列三】利用圖演算法實現金融行業風控

【玩轉資料系列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦

【玩轉資料系列五】農業貸款發放**

玩轉資料結構《一》

集合是承載元素的容器 特點 每個元素只能存在一次 優點 去重 linkedlist bstadd o n o logn contains o n o logn remove o n o logn 有序集合 元素中具有順序性 多重集合 有序對映和無序對映 有序對映中鍵具有順序性的 無序對映中鍵沒有順序...

玩轉資料結構之遞迴

遞迴本質上,將原來的問題,轉化成更小的同一問題 遞迴函式的呼叫,本質上就是函式的呼叫,只不過是函式在內部呼叫自己 寫遞迴的 一般兩個部分 1.遞迴的終止條件也叫最基本問題 2.遞迴演算法也叫原問題轉化為最基本問題的過程 舉例 陣列求和 sum a0 a1 an 1 求n個數的和 遞迴就是把原問題轉化...

Python玩轉資料分析 相關分析

在引數統計中,常用的相關分析方法是 pearson 相關係數,公式如下 r x y i xi x y i y i xi x 2 i y i y 2 r bm frac x i bar y i bar x i bar 2 sum y i bar 2 r x,y i xi x 2 i yi y 2 i ...