問答系統筆記1

2022-10-10 10:00:10 字數 678 閱讀 4600

1.聊天資料中詞語在不同位置的概率分布具有非常明顯的長尾特性。詞語概率分布上的模式會優先被decoder的語言模型學到,並在生成過程中嚴重抑制query和response之間詞語關聯模式的作用,即便有了query的語義向量作為條件,decoder仍然會挑選概率最大的「我」作為response的第乙個詞語,由於語言模型的特性,接下來的詞語很有可能是「也」。。。由此,乙個safe response產生。

解決辦法:引入attention強化query中重點的語義資訊,削弱decoder中語言模型的影響;

引入user modeling或外部知識等資訊增強生成回覆的多樣性。

全域性考慮,safe response的產生是因為陷入了乙個區域性的最優解,需要給模型加乙個干擾,讓他跳出區域性解,正向干擾就是告知模型safe response是很差的結果,儘管這樣的loss是很小的,於是引入了gan。

2.如何實現判別器d訓練誤差向生成器g的反向傳播,引入強化學習

生成器生成文字的過程其實是取樣,但不管是什麼樣的取樣,都會不連續的,導致誤差無法回傳。

3.檢索模型的優點:答案在預設的語料庫中,結果可控,可解釋性強;

缺點是在一定程度上缺乏對語義的理解,且有固定語料庫的侷限性,長尾問題覆蓋率較差。

生成模型的優點:通過深層語義方式進行答案生成,答案不受語料庫規模限制;

缺點:可解釋性不強,且難以保證回答一致性和合理性。

問答系統 1 天氣

最近初步完成了關於天氣的問答系統 主要涉及到天氣查詢 目前處理的是是非問句 因為不同型別的問題,採取不同的處理方式 簡單事實型問題 yes no,who,which,what 可以採用模板匹配的方式 why或how複雜問題 可以採用文字摘要的方式 注意 英文中的how不一定都是複雜問題,具體可以分為...

NLP學習筆記04 問答系統

這裡通常有兩種方式 1種是用正則,2是計算相似度。基於概率的,是需要訓練資料的。通用處理流程 先分詞,後門的預處理操作 spell correctness 拼寫糾錯 找出原形 stopwords 停用詞過濾 word filter 過濾詞 同義詞 文字 向量的方法 boolean vector 布林...

python 學習筆記1 Python問答

軟體質量 開發效率高 可移植性,功能強大,社群活躍 元件整合 享受簡便。python的缺點是效能,不能像c一樣快,但是絕大多數應用已經足夠快,如果速度要求苛刻的話可以呼叫編譯好的擴充套件。幾乎可以在計算機的任何方面使用python 會顯示python程式設計哲學 優美勝於醜陋 python 以編寫優...