word2vec訓練出來的相似詞歧義

2022-06-17 11:12:13 字數 333 閱讀 8622

【問題】word2vec訓練以後,得到預付卡和購物卡非常接近,可是實際上這兩個東西是不一樣的,如何區分這兩個東西?

解決:建立乙個獨立詞典,這個詞典裡的詞是沒有近義詞的,獨立的詞,比如預付卡是很獨特的,我們加進詞典了,每次遇到這個詞,我們就不是取topn 為1, 我們取topn為1.2,

這樣就會實現:

【預付卡 設定】

【啟用 預付卡】

的相似度,大於

【啟用 預付卡】

【使用 購物卡】

的相似度

這方法不好,本來word2vec訓練出來的就應該是確實相似的結果,除非出現很大的問題,否則不要這樣調整,對整體的準確率不好

小小word2vec模型訓練

嗨,好久不見啊!今天我們來完成乙個word2vec模型訓練,學習筆記有挺多人寫的,不瞞您說,小白也是看別人的部落格學習的。所以這次,小白就直接上手例項啦,一起嘛?首先介紹一下模型引數 通過jieba分詞 import jieba import pandas as pd 把文字檔案讀進來,再分詞,去停...

模型是如何訓練出來的

一 模型裡的內容和意義 乙個標準的模型結構分為輸入 中間節點 輸出三大部分,而如何讓這三部分連通起來學習規則並可進行計算,則是框架tensorflow所做的事情。tensorflow將中間節點及節點間的運算關係 ops 定義在自己內部的乙個 圖 上,全通過乙個 會話 session 進行圖中ops的...

軟體天才都是訓練出來的

長期以來,軟體業 一直被視為 智力密集 型的 朝陽 產業,大多數從業者都受過高等教育,其平均素質居於社會各行業的前列,這個產業的頂尖人物被公眾視為 知識英雄 比如微軟公司的創始人比爾蓋茨雄據世界首富之位多年,更是為人 津津樂道 16年前我下決心開始學習計算機技術的時候,對這個行業也充滿了自豪感。然而...