自然語言處理中資料預處理的取樣

2021-10-08 08:16:59 字數 886 閱讀 4127

我們知道skip-gram中,訓練樣本的形式是(input word, output word),其中output word是input word的上下文。為了減少模型噪音並加速訓練速度,我們在構造batch之前要對樣本進行取樣,剔除停用詞等噪音因素。

對停用詞進行取樣,例如「你」, 「我」以及「的」這類單詞進行剔除。剔除這些單詞以後能夠加快我們的訓練過程,同時減少訓練過程中的噪音。

我們採用以下公式:

3# t值

threshold =

0.7# 剔除概率閾值

#int_words是單詞轉換為index

# 統計單詞出現頻次

int_word_counts = counter(int_words)

total_count =

len(int_words)

# 計算單詞頻率

word_freqs =

# 計算被刪除的概率

prob_drop =

# 對單詞進行取樣

train_words =

[w for w in int_words if prob_drop[w]

< threshold]

#去除的單詞

drop_words=

[int_to_vocab[w]

for w in int_words if prob_drop[w]

> threshold]

英文自然語言預處理

目錄 1 資料集準備 2 資料集處理 1 簡單分詞 詞性還原 停用詞過濾 2 特徵提取 tt idf 資訊增益 卡方檢驗 互資訊 n gram等 3 文字標籤向量化 4 選擇合適的演算法模型進行訓練 函式說明 簡單分詞 parameters filename 資料檔案 returns list wo...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...