基於Python爬蟲的大眾點評商家評論的文字挖掘

使用工具

程式語言工具：python 2.7 r 2 .2.1 excel

瀏覽器：google chrome

資料庫： mongodb

情感分析（sentiment analysis），又被稱為傾向性分析、意見挖掘，是通過對帶有一定的情感色彩的主觀性文字進行處理分析，歸納推理的過程，例如通過使用者對產品的效能、**、便攜性等方面的評價分析使用者對該產品的情感傾向。通常來說，文字情感分析的目的是找出說話者在某些話題上或者針對同一事物的兩極的觀點的態度。或許是說話者當時的情感狀態，抑或是作者有意向的情感交流。

情感分析的基本步驟是分類，即將文字傳達的情感劃分為不同的類別。在句子級、功能級判斷文字所闡述的觀點是正面的，負面的，抑或是中性的。

python中有許多用於網路爬蟲的包在這裡我們使用了「request」和」beautiful soup」兩個用於爬取和解析網頁的軟體包，以及「pymongo」連線上mongodb資料庫方便訪問資料。

（1）使用反-反爬機制

存入資料庫

我們使用的是mongodb 資料庫，python自帶了pymongo 包我們可以通過這個包在mongodb中創立乙個資料庫「dianping」：

client = pymongo.mongoclient('localhost', 27017)

dianping = client['new']

infors = dianping['info']

而後把資料插入到資料庫中就完成了整個過程。而後對資料內的資料進行資料清洗

文字挖掘過程：

詞頻統計

為了方便檢視每個詞出現的次數，找出消費者使用最多的詞語，我們先使用軟體包進行分詞，而後再將分詞結果寫入excel**當中，方便視覺化。思想十分簡單，就是先分詞，而後統計頻次再寫入excel**中，再製作成餅圖方便檢視。

snownlp是乙個用python語言寫的類庫，可以方便的處理中文文字內容，是受到了textblob的啟發而寫的，由於現在所能找到的大部分的自然語言處理庫基本都是針對英文的，少有針對中文處理的，於是我們實現了乙個方便處理中文的類庫，並且和textblob不同的是，這裡沒有用到nltk，所有的演算法都是自己實現的，並且自帶了一些訓練好的字典。

情感分數比對

基於Python爬蟲的大眾點評商家評論的文字挖掘

大眾點評面試

大眾點評反爬蟲簡單研究之一

抓取大眾點評評論

基於Python爬蟲的大眾點評商家評論的文字挖掘

大眾點評面試

大眾點評反爬蟲簡單研究之一

抓取大眾點評評論

相關推薦