用mysql做文字挖掘手把手教你做文字挖掘

一、文字挖掘定義

文字挖掘指的是從文字資料中獲取有價值的資訊和知識，它是資料探勘中的一種方法。文字挖掘中最重要最基本的應用是實現文字的分類和聚類，前者是有監督的挖掘演算法，後者是無監督的挖掘演算法。

二、文字挖掘步驟

1)讀取資料庫或本地外部文字檔案

2)文字分詞

2.1)自定義字典

2.2)自定義停止詞

2.3)分詞

2.4)文字雲檢索哪些詞切的不準確、哪些詞沒有意義，需要迴圈2.1、2.2和 2.3步驟

3)構建文件-詞條矩陣並轉換為資料框

4)對資料框建立統計、挖掘模型

5)結果反饋

三、文字挖掘所需工具

四、實戰

接下來需要對新聞內容進行分詞，在分詞之前需要匯入一些自定義字典，目的是提高切詞的準確性。由於文字中涉及到軍事、醫療、財經、體育等方面的內容，故需要將搜狗字典插入到本次分析的字典集中。

如果需要解除安裝某些已匯入字典的話，可以使用uninstalldict()函式。

分詞前將中文中的英文本母統統去掉。

圖中圈出來的詞對後續的分析並沒有什麼實際意義，故需要將其剔除，即刪除停止詞。

停止詞建立好後，該如何刪除76條新聞中實際意義的詞呢?下面通過自定義刪除停止詞的函式加以實現。

相比與之前的分詞結果，這裡**了很多，剔除了諸如「是」、「的」、「到」、「這」等無意義的次。判別分詞結果的好壞，最快捷的方法是繪製文字雲，可以清晰的檢視哪些詞不該出現或哪些詞分割的不準確。

仍然存在一些無意義的詞(如說、日、個、去等)和分割不準確的詞語(如**周切割為**，醫藥切割為藥等)，這裡限於篇幅的原因，就不進行再次新增自定義詞彙和停止詞。

此時語料庫中存放了76條新聞的分詞結果。

從圖中可知，文件-詞條矩陣包含了76行和7939列，行代表76條新聞，列代表7939個詞;該矩陣實際上為稀疏矩陣，其中矩陣中非0元素有11655個，而0元素有591709，稀疏率達到98%;最後，這7939個詞中，最頻繁的乙個詞出現在了49條新聞中。

由於稀疏矩陣的稀疏率過高，這裡將剔除一些出現頻次極地的詞語。

這樣一來，矩陣中列大幅減少，當前矩陣只包含了116列，即116個詞語。

為了便於進一步的統計建模，需要將矩陣轉換為資料框格式。

總結免費公開課福利：

手把手教您改錯賬

自 http cloudorsunorrain.spaces.live.com blog 做為一名財會人員，謹慎的工作態度是做好會計工作的前提，但是填製會計憑證或登記賬簿時由於疏忽會偶爾發生一些差錯，對產生的這些差錯，如何查詢並更正呢？我們通過以下幾方面的介紹，幫您完善會計工作。追本溯源教您找錯賬...

手把手教您完成Elasticsearch資料遷移

您可以通過logstash reindex和oss等多種方式在elasticsearch之間遷移資料。本文以阿里雲elasticsearch 簡稱es 為例，介紹阿里雲elasticsearch間資料遷移自建es資料遷移至阿里雲es和第三方es遷移至阿里雲es的方案，幫助您根據業務選擇合適的場景進...

手把手教你做flash RPG

第一步匯入資料首先在flash中匯入人物走路的,如下圖第二步製作向前後左右走路的影片剪輯把剛才匯入的,分別製作成4個影片剪輯a,d,s,w,用來描述走路的過程,如下圖第三步製作walk影片剪輯,在主場景中建立乙個walk影片剪輯,在walk中建立8個關鍵幀,幀標籤分別是 right l...

用mysql做文字挖掘 手把手教你做文字挖掘

手把手教您改錯賬

手把手教您完成Elasticsearch資料遷移

手把手教你做flash RPG

相關推薦

用mysql做文字挖掘手把手教你做文字挖掘