R語言 文字分類 1

2021-07-06 06:27:08 字數 1035 閱讀 3347

因專案需要,結合自身專業知識,故而接觸了r語言及一些常用分類器。記錄下自己這乙個多月的學習歷程。

與起源於貝爾實驗室的s語言類似,r也是一種為統計計算和繪圖而生的語言和環境,它是一套開源的資料分析解決方案,由乙個龐大且活躍的全球性研究型社群維護。

r是一門指令碼語言,在繪圖方面有著非常強的能力,它可以讓你集中到你要設計的邏輯上來,而不必太過糾結於**的實現。它的包實在太豐富,幾乎能滿足你全部的需要。我使用的ide是rstudio。然後介紹幾個我在文字分類裡用到的包:

為了激發興趣,學習了其中乙個很有意思的包:詞云包——wordcloud

**如下:

library(wordcloud)  #載入wordcloud包

library(rcolorbrewer) #載入顏色包

png(file="wordcloud.png", bg="white",width = 600, height = 780) #新建乙個png的檔案作為詞云檔案。

colors = brewer.pal(8,"dark2")[-(1:4)]

data = read.csv("wordcount.txt") #讀取設定的詞及頻度,用於顯示。

#然後呼叫wordcloud函式,每個引數都有各自的含義,具體可在網上查閱。

wordcloud(data$name,data$count,scale=c(3,0.4),min.freq = -inf,max.words=178,colors = colors,random.order = f,random.color = t,ordered.colors = f)

dev.off()

截個圖

R語言文字分析(5)

採用移除稀疏專案的方法,將稀疏專案移除,得到新的專案文件矩陣,並對裁剪過的專案進行聚類分析。通過剪枝合併的方法可以獲得幾個類團。也可以採用k means進行聚類分析。移除sparse專案 mytdm2 removesparseterms mytdm,sparse 0.95 m2 as.matrix ...

R語言做文字挖掘 Part4文字分類

part4文字分類 part3文字聚類裡講到過,分類跟聚類的簡單差異。所以要做分類我們需要先整理出乙個訓練集,也就是已經有明確分類的文字 測試集,可以就用訓練集來替代 集,就是未分類的文字,是分類方法最後的應用實現。1.資料準備 訓練集準備是乙個很繁瑣的功能,暫時沒發現什麼省力的辦法,根據文字內容去...

語言文字分析(1)

語言在資料探勘中應用廣泛,並有越來越火的趨勢。語言進行文字挖掘也是相當好使。作為乙個 語言新手,追隨著眾多牛人的腳步,嘗試使用 語言進行文字挖掘分析,過程應是充滿艱辛,道路曲折坎坷之處write down以記錄之。我從text analysis with r for students of lite...