NLP 文字表示

一、文字表示

文字表示：one-hot(單詞)，boolean representation(句子),count-based representation（句子）

詞典：[我，要，去，北京，上海，南京]

one-hot：向量空間只有乙個維度是1，其餘都是0（缺點：高維度高稀疏）

w1=我：[1,0,0,0,0,0]

w2=要：[0,1,0,0,0,0]

w3=去：[0,0,1,0,0,0]

w4=北京：[0,0,0,1,0,0]

缺點：矩陣稀疏；不能表示語義

boolean representation

s1=我要去北京：[1,1,1,1,0,0]

s2=我要去上海：[1,1,1,0,1,0]

s3=我要去北京啊北京：[1,1,1,1,0,0]

count-based representation

我要去北京：[1,1,1,1,0,0]

我要去北京啊北京：[1,1,1,2,0,0]

二、文字距離

歐式距離：

余弦距離：

三、詞向量

從第一節我們知道one-hot表示方法的缺陷，為解決這個問題，我們使用分布式表示方法（針對於單詞的方法是詞向量）。

二者區別：100維的one-hot表示法最多可以表示100個單詞，但是100維的分布式表示方法最多可以表示無數個單詞。

分布式表示：基本思想是將每個詞表達成n維稠密、連續的實數向量。具有很強的特徵表達能力。

分布式表示方法的好處：

①能計算詞與詞之間的相似度，能對詞進行視覺化

②解決了one-hot的稀疏問題

**於貪心科技nlp講解

NLP 之文字表示

我們在做模型訓練的時候，不是直接把文字或者詞語傳給計算機讓其進行計算，而是需要將單詞句子文字轉換成向量或者矩陣進行計算，而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前，大家需要先熟悉一些概念。詞庫訓練資料現的所有單詞，可以使用jieba分詞統計出來。混淆矩陣混淆矩陣是資料科學 ...

NLP之分布表示

harris 在1954 年提出的分布假說 distributional hypothesis 為這一設想提供了理論基礎上下文相似的詞，其語義也相似。firth 在1957 年對分布假說進行了進一步闡述和明確詞的語義由其上下文決定 a word is characterized by theco...

NLP文字挖掘

賽題理解賽題資料學習目標賽題思路賽題的名稱零基礎入門nlp之新聞文字類賽題的任務以nlp為背景，對新聞文字進行分類，及處理乙個典型的字元識別問題賽題目標通過這道賽題可以引導大家走入自然語言處理的世界，帶大家接觸nlp的預處理模型構建和模型訓練等知識點。資料構成訓練集20w條樣...

NLP 文字表示

NLP 之文字表示

NLP之分布表示

NLP文字挖掘

相關推薦