思路總結對微博情感分析的的挖掘

原始資料

這一部分的內容，我們可以通過爬蟲技術來抓取。通過聚類演算法，找到相同話題的所有微博。然後拿來做為原始資料。還有就是使用者好友圈內的評價訊息，還有使用者產生的連線訊息，等等。這些都可以作為原始資料來歸入我們的資料庫。

確訂目標(商業理解)

資料理解

模型建立

有人說，搞資料探勘的人就是要來做這一部分的內容。你要建立乙個好的模型，那以後的資料通過你的這個模型，那麼你所需要的內容自動地就會呈現出來。而這一部分也是整個資料探勘裡最難的部分。

比如說我們的微博資料，我們可以通過決策樹演算法建立模型。最後輸出那些關健字的客戶就是我們的目標客戶。又或者，我們可以通過神經網路的演算法建立模型，找到相關的所的決策項。實際上，資料探勘所用到的方法很多，也很複雜，我也是到現在還是沒有弄清楚一些演算法的核心思想。但這樣並不影響我們來使用相關的演算法來進行挖掘。再者說，現在的挖掘物件，真正上pb內容的資料也不是很多的。很多企業還停留在小型機的階段。所以，有的時候，我會開玩笑的說：資料量太小的話，execl會更好一些，然後是access資料庫。再然後就是orcale資料庫.....

模型建立是乙個比較幸苦的工作，可是如果建立完成後，一般3-5年不會發生變化。比如我們現在的信用卡的信用評分系統。

模型評估

這一部分內容，是進行相關優化。也就是說模型建立好了，開始要跑業務了。要測試一下看它到底能跑到什麼樣的程度。有的時候，你挖掘了半年，也找到的目標客戶，結果被其他人先用其他方法吸引走了，怎麼辦？所以才要有模型評估這件工作。

先將大資料裡的一部分資料，一般是40%拿來先做訓練，你也可以拿少量來試一試。然後看完成這些資料需要多長時間。換了其他的演算法後，是否可以提高挖掘時間。一般這一步的資料分配要遵守乙個4:3:3的原則，即40%拿來做訓練，30%來做測試，另外的30%拿來做驗證。綜合來說，才能夠評價這個模型的好壞，以及這個模型是否能產生它的相應價值。

發布模型

這是最後一步，讓所有微博資料進行相應的演算法優化。進而達到最好的挖掘效果。

再來說說在文字挖掘中的思路，少量的文字資訊。我們可以放在在word裡用複製貼上來完成，多的話可以用excel，再多的話可以用u1，要是還是多就用sas與r，再多就用其他的了，具體什麼軟體，我也沒用過。

好了，就先總結這麼多吧。下週有空再寫吧！

思路總結對微博情感分析的的挖掘

微博評論的情感分析

微博情感分析資料的獲取（一）

疫情下微博使用者情感分析基於機器學習的微博情感分析

思路總結 對微博情感分析的的挖掘

微博評論的情感分析

微博情感分析 資料的獲取（一）

疫情下微博使用者情感分析 基於機器學習的微博情感分析

相關推薦

思路總結對微博情感分析的的挖掘

微博情感分析資料的獲取（一）

疫情下微博使用者情感分析基於機器學習的微博情感分析