句子語義表徵 句子向量

2021-09-13 03:42:58 字數 933 閱讀 5110

大體上可以分為無監督方式和監督方式

無監督句子語義表徵方法:

1、一種最經典的方法是在one-hot詞語語義表徵的基礎上使用bag-of-words技術。缺點:一是它丟失了詞語在句子中的順序資訊;二是它忽略了詞語的語義資訊,每個詞的one-hot表徵都是等距離的。

2、類似的還有用word2vec來替換one-hot詞向量,使用bag-of-words技術,構成句子向量。還可以結合tf-idf技術來調整詞與的權重,或者訓練學習每個詞的權重。詳細見cedric de booms的相關**。

3、基於自編碼器,嚴格說這不是無監督方法,而是一種自監督方法,標籤產生自輸入資料。輸入--》編碼--》解碼--》輸出,輸入和輸出相同。語義編碼c即為句子編碼。

4、paragraph vector方法,通過**句子中的詞與來獲得句子的表徵。

5、ship-thought獲得句子表徵

該方法拓展了詞語的分布式語義假設,它假設上下文相似的句子往往有相似的語義。借鑑了word2vec中的skip-gram模型,通過當前的句子來**上文和下文的句子,從而得到句子表徵。語義和語法屬性一致的句子被對映到相似的向量表示,可以給任意的句子生產vector。encoder部分的最後乙個詞的hidden state作為decoder的輸入來生成詞。

有監督句子語義表徵方法:

有監督句子語義表徵通常是針對某個特定的自然語言處理任務訓練得到的。通常意義上,針對特定任務訓練得到句子語義表徵會優於通用的句子語義表徵。

語言表徵 從詞巢狀到句子語義

去年,christopher manning教授發表了這個演講。這是乙個介紹性教程,沒有太複雜的演算法。該主題分為四個部分 人類語言特徵 人類語言最鮮明的特徵之一是其有意義的表徵。無論乙個人說什麼,乙個詞或乙個片語,它往往都有意義。人類語言也有乙個特殊的結構,使其易於學習,即使是孩子也可以快速學習。...

bert生成句子向量

2.如何使用bert的詞向量 3.直接使用bert原始碼生成詞向量 bert本質上是乙個兩段式的nlp模型。第乙個階段叫做 pre training,跟wordembedding類似,利用現有無標記的語料訓練乙個語言模型。第二個階段叫做 fine tuning,利用預訓練好的語言模型,完成具體的nl...

NLP FastText句子語義深度表示

1 nlp 高階詞向量表達 一 glove 理論 相關測評結果 r python實現 相關應用 2 nlp 高階詞向量表達 二 fasttext 簡述 學習筆記 3 nlp 高階詞向量表達 三 wordrank 簡述 4 其他nlp詞表示方法 從符號到分布式表示nlp中詞各種表示方法綜述 本節內容參...