NLP中的Ngram演算法簡易原理及overlap

2021-07-29 05:23:25 字數 591 閱讀 7174

查到的大多數部落格寫的都比較複雜,在看到乙個stanford cs276的課件之後,決定按照自己的理解來寫一點,權做拋磚引玉了。

假定給予兩個詞

november

december

則unibram是

n o v e m b e r

d e c e m b e r

bigram是

no ov ve em mb be er

de ec ce em mb be er

trigram是

nov ove vem emb mbe ber

dec ece cem emb mbe ber

如果在計算兩個序列之間的overlap的時候,比如對於trigram而言,其

x∪y= 9

x∩y =3

因此其overlap是3/9

而在276課件中,是提到了x與y可以為不同長度。因此,我認為在x和y的overlap比對中,並不一定需要相同位置的兩個一樣,即對順序不敏感。意思是說

nov emb mbe ber ove vem和dec ece cem emb mbe ber的overlap也是3/9

276 課件鏈結

NLP中的遷移學習

摘要 遷移學習正在各個領域大展拳腳,nlp領域正在受到衝擊!nlp中的遷移學習理念在fast.ai課程中得到了很好的體現,我們鼓勵你檢視論壇。我們這裡的參考檔案是 howard,ruder,用於文字分類的通用語言模型微調 計算機視覺是乙個使用遷移學習而取得巨大進步的領域。它具有數百萬引數的高度非線性...

NLP中的對抗樣本

自然語言處理方面的研究在近幾年取得了驚人的進步,深度神經網路模型已經取代了許多傳統的方法。但是,當前提出的許多自然語言處理模型並不能夠反映文字的多樣特徵。因此,許多研究者認為應該開闢新的研究方法,特別是利用近幾年較為流行的對抗樣本生成和防禦的相關研究方法。使用對抗樣本生成和防禦的自然語言處理研究可以...

NLP中的資料增強

相關方法合集見 較為簡單的資料增強的方法見 中所使用的方法如下 1.同義詞替換 sr synonyms replace 不考慮stopwords,在句子中隨機抽取n個詞,然後從同義詞詞典中隨機抽取同義詞,並進行替換。同義詞其詞向量可能也更加接近,在使用詞向量的模型中不一定有用 2.隨機插入 ri r...