幾個適用NLP的python包

2021-10-25 14:45:23 字數 454 閱讀 6105

分詞

段落分句,

分詞抽取文字中token的嵌入表示,隱藏特徵,平均得到句向量等

郵箱抽取,規則

詞頻統計,文字糾錯

metrics.pairwise.cosine_similarity :文字的余弦相似度,

feature_extraction.text.countvectorizer: 向量化表示

feature_extraction.text.tfidfvectorizer : tf-idf

truncatedsvd:lsa模型抽取主題詞

近義詞查詢

lda抽取主題詞:ldamodel

doc2vec訓練模型:獲取優於word2vec的語句表示

phraser抽取bigrams(雙詞組合)

情感正負面傾向分析

ngrams建立bigrams,trigrams

處理文言文

關於python閉包函式的幾個要點

根據自己的理解,總結了4點內容 1.關於閉包定義的理解。閉包在被返回時,它的所有變數就已經固定,形成了乙個封閉的物件,這個物件包含了其引用的所有外部 內部變數和表示式。所以稱之為閉包。閉包函式必須返回函式物件。無法像func1 bar 這樣呼叫閉包函式,只能用如下的方法 f1 func1 f1 這樣...

構造NLP標註集的幾個簡便方法 隨想

基於統計的nlp演算法或模型的效能關鍵在於語料庫,但帶標註的語料庫不容易獲得。這裡介紹幾個構造訓練集或測試集的簡便方法,在沒有足夠標註集的情況下可以採用。1.詞義消歧 用固定字串替換多詞。如,用詞符串 8888 替換語料中出現的 屌絲 和 高富帥 其中 8888 是歧義詞,其含義可能為 屌絲 或 高...

構造NLP標註集的幾個簡便方法 隨想

基於統計的nlp演算法或模型的效能關鍵在於語料庫,但帶標註的語料庫不容易獲得。這裡介紹幾個構造訓練集或測試集的簡便方法,在沒有足夠標註集的情況下可以採用。1.詞義消歧 用固定字串替換多詞。如,用詞符串 8888 替換語料中出現的 屌絲 和 高富帥 其中 8888 是歧義詞,其含義可能為 屌絲 或 高...