NLP 文字表示

2022-03-02 15:18:36 字數 858 閱讀 4134

一、文字表示

文字表示:one-hot(單詞),boolean representation(句子),count-based representation(句子)

詞典:[我,要,去,北京,上海,南京]

one-hot:向量空間只有乙個維度是1,其餘都是0(缺點:高維度高稀疏)

w1=我:[1,0,0,0,0,0]

w2=要:[0,1,0,0,0,0]

w3=去:[0,0,1,0,0,0]

w4=北京:[0,0,0,1,0,0]

缺點:矩陣稀疏;不能表示語義

boolean representation

s1=我 要 去 北京:[1,1,1,1,0,0]

s2=我 要 去 上海:[1,1,1,0,1,0]

s3=我 要 去 北京 啊 北京:[1,1,1,1,0,0]

count-based representation

我 要 去 北京:[1,1,1,1,0,0]

我 要 去 北京 啊 北京:[1,1,1,2,0,0]

二、文字距離

歐式距離:​

余弦距離:​

三、詞向量

從第一節我們知道one-hot表示方法的缺陷,為解決這個問題,我們使用分布式表示方法(針對於單詞的方法是詞向量)。

二者區別:100維的one-hot表示法最多可以表示100個單詞,但是100維的分布式表示方法最多可以表示無數個單詞。

分布式表示:基本思想是將每個詞表達成n維稠密、連續的實數向量。具有很強的特徵表達能力。

分布式表示方法的好處:

①能計算詞與詞之間的相似度,能對詞進行視覺化

②解決了one-hot的稀疏問題

**於貪心科技nlp講解

NLP 之文字表示

我們在做模型訓練的時候,不是直接把文字或者詞語傳給計算機讓其進行計算,而是需要將單詞 句子 文字轉換成向量或者矩陣進行計算,而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前,大家需要先熟悉一些概念。詞庫 訓練資料 現的所有單詞,可以使用jieba分詞統計出來。混淆矩陣 混淆矩陣是資料科學 ...

NLP之分布表示

harris 在1954 年提出的分布假說 distributional hypothesis 為這一設想提供了理論基礎 上下文相似的詞,其語義也相似。firth 在1957 年對分布假說進行了進一步闡述和明確 詞的語義由其上下文決定 a word is characterized by theco...

NLP文字挖掘

賽題理解 賽題資料 學習目標 賽題思路 賽題的名稱 零基礎入門nlp之新聞文字類 賽題的任務 以nlp為背景,對新聞文字進行分類,及處理乙個典型的字元識別問題 賽題目標 通過這道賽題可以引導大家走入自然語言處理的世界,帶大家接觸nlp的預處理 模型構建 和模型訓練等知識點。資料構成 訓練集20w條樣...