15分鐘入門NLP神器 Gensim

2021-09-19 19:19:28 字數 481 閱讀 5541

gensim是一款開源的第三方python工具包,用於從原始的非結構化的文字中,無監督地學習到文字隱層的主題向量表達。

它支援包括tf-idf,lsa,lda,和word2vec在內的多種主題模型演算法,

支援流式訓練,並提供了諸如相似度計算,資訊檢索等一些常用任務的api介面

基本概念

語料(corpus):一組原始文字的集合,用於無監督地訓練文字主題的隱層結構。語料中不需要人工標註的附加資訊。在gensim中,corpus通常是乙個可迭代的物件(比如列表)。每一次迭代返回乙個可用於表達文字物件的稀疏向量。

向量(vector):由一組文字特徵構成的列表。是一段文字在gensim中的內部表達。

稀疏向量(sparsevector):通常,我們可以略去向量中多餘的0元素。此時,向量中的每乙個元素是乙個(key, value)的元組

模型(model):是乙個抽象的術語。定義了兩個向量空間的變換(即從文字的一種向量表達變換為另一種向量表達)。

15分鐘了解Phoenix

以下部分翻譯自 phoenix為hbase穿上一層sql的外衣。所以你可以使用標準的jdbc api來建立表 插入資料 查詢hbase中的資料,而不是使用常規的hbase客戶端api。不會。跟原生的hbase客戶端相比,phoenix效能一樣好甚至更好,主要通過以下方式 除此之外,我們還做了一些工作...

15分鐘了解TiDB

2019年07月13日 22 21 49 d guco 閱讀數 77341 由於目前的專案把mysql換成了tidb,所以特意來了解下tidb。其實也不能說換,由於tidb和mysql幾乎完全相容,所以我們的程式沒有任何改動就完成了資料庫從mysql到tidb的轉換,tidb 是乙個分布式 news...

Speedle五分鐘入門

speedle是乙個非常強大的企業級許可權管理方案。不同於傳統企業級應用,speedle簡單易學。使用者可以在5分鐘之內編譯,部署,和簡單使用speedle。第一步 編譯 先安裝go編譯器,安裝檔案在 設定gopath環境變數 執行如下命令 spctl speedle ads speedle pms...