Python NLP初識 小試牛刀

2021-10-10 08:40:28 字數 1478 閱讀 1207

章前小菜

自然語言處理是人工智慧中的一大重要研究方向,應用在文字分類、機器翻譯、智慧型回答、情感分析等諸多領域。

前段時間對這一方面很感興趣,但一直沒時間研究,零零星星了解了一些,今天興趣高漲,就拿實際的?試了一下。

1、資料爬去處理

接下來檢測一下空值:

在有空值的情況下需要剔除空值:

但是很明顯資料中有重複資料,這裡也對資料進行去重操作,預設是保留第乙個:

至此所有資料都已處理完畢,進行後續操作。

2、snownlp情感分析

很多python自然語言分析庫是對英文做分析,而snownlp是一款專門對中文做分析的庫,功能很強大,其中應用到了隱式馬爾地夫模型、樸素貝葉斯、字典樹等演算法。

先試試它的功能效果:

snownlp有諸多功能,比如分詞,詞性標註,拼音轉換,情感分析等,這裡只是做了簡單的示範,可以看出它的情感得分為0.73左右,結合語意看似挺準確的。但實際呢這個庫暫時的訓練資料主要是針對電商服務資料,所以場景還是有所侷限,用來做普通的分析足夠了,它同時提供自己模型的訓練,這裡就不做說明。

那麼最後再看看它的統計關鍵字功能,與jieba的做了個比較,它的統計功能相比jieba的還是差很多。

小結

今天呢主要是對情感分析做了初探,但就使用的庫來說想要達到精準的程度還是不夠,需要結合具體場景去標註資料,對資料進行訓練等。而在情感分析詞典這塊還需要去沉澱。

boost graph lib 小試牛刀

最近要做社會網路的社群發現,發現用bgl能減少不少 量。經過一番調研發現bgl封裝的很牛叉,dijkstra等演算法統統具備,奈何自己對泛型程式設計不太熟,遇到問題還是很糾結。primer泛型程式設計 演算法部分和stl原始碼分析接下來有時間一定要讀下。下面僅以鄰接鍊錶和自定義節點為例 typede...

Anti Debug 小試牛刀

本文整理了日常生活中遇到的一些anti debug技術,除非特殊說明,均適用於mac ios開發 作為第一篇正式博文,會不定期更新,謝謝大家.123 4567 89 define pt deny attach 31 include intmain 程式正常執行,會輸出hello 但是程式載入到gdb...

tsung小試牛刀

linux環境 centos5.5 1 tsung安裝 tar zxvf tsung 1.4.2.tar.gz configure make sudo make install 安裝後執行 which tsung,如果顯示 usr bin tsung 表明安裝成功 2 設定 如果沒有 tsung 目...