實際NLP工程師用的NLP庫

2021-10-05 23:47:53 字數 1056 閱讀 1682

1.背景

智慧型客服,檢索式

2.用到的庫

1.分詞:

pkuseg,原因北大的**號稱分詞效果很好,比jieba,哈工大的都好,效果還行,但是也沒那麼神奇

paddlenlp的lac模型,用起來效果可以的。

2.無監督聚類:

hanlp,用的它的非監督文字聚類,主要是實現了repeated bisection演算法,該聚類方法,可以不指定聚類的類別數

用於智慧型客服的句子無監督聚類的效果還是可以。題主,用了乙個遞迴聚類來快速獲取百萬相似的句子。缺點是語義相似性的句子樣本需要人工增加。

3.numpy

這個庫,大家應該比較用的多,這裡提一點,裝1.16.1版本或者以上,因為在1.16.0與pickle一起用的時候, 會記憶體洩 漏。

4.bert4keras

主要是使用此庫來進行albert預訓練模型的載入。國內厲害的一顆新星寫的。

5.pysparnn

facebook公司的作品。主要用於召回相似的句子。不殺程序,動態多次載入它的模型的時候,會記憶體洩漏。

6.flask

這個框架做web應該比較清楚,用做提供服務介面框架。比如呼叫albert模型,通過flask api傳送請求,flask接到請求執行模型**。

7.sklearn

用這個庫,進行特徵的提前,tfidfvectorizer, countvectorizer,sklearn.feature_extraction.text

8.keras

現在深度學習大行其道,此庫用於深度學習模型的訓練人性化還可以的。keras.preprocessing.text.處理文字。            keras.preprocessing.sequence

logging日誌必須的。

其餘:redis,pymysql,pickle,codecs,configparser,json

3.結論

分詞,召回,相似度匹配,資料庫處理,訊息處理。這些功能需要的庫,就是上面的了。

洞察 2023年北京市NLP工程師薪酬報告

移動網際網路,資料服務和人工智慧行業對nlp工程師的需求量最大。招聘企業以大中型公司居多。3 5年的nlp工程師最吃香,做nlp,學歷很重要,本科學歷是必須的,北京的nlp,有近一半要求碩士學歷及以上。隨著工作經驗的增長,nlp工程師的薪資上證越快,當然,和學歷也成正比。總之,nlp工程師的薪資是真...

devops工程師 DevOps工程師的認證

devops工程師 devops的團隊欣賞使用devops的過程 尤其是在多 和混合雲基礎架構,原因是多方面的。一方面,devops打破了障礙,使敏捷軟體開發和it運營的持續交付成為可能。它在企業中也很流行,因為它可以通過數位化轉型幫助加速業務成果。隨著敏捷實踐和流程深入企業內部,具有擴充套件框架知...

資料庫工程師

資料庫工程師 1.掌握資料庫技術的基本概念 原理 方法和技術 2.能夠使用sql語言實現資料庫操作 3.具備資料庫系統安裝 配置及資料庫管理與維護的基本技能 4.掌握資料庫管理與維護的基本方法 5.掌握資料庫效能優化的基本方法 6.了解資料庫應用系統的生命週期及其設計 開發過程 7.熟悉常用的資料庫...