2023年語義理解總結 一

2021-08-21 12:25:37 字數 2192 閱讀 3530

2023年語義理解總結(一)

2023年就這麼悄無聲息地過去了。在工業界,2023年是推薦的元年,2023年是中國的ai元年,這意味著路漫漫其修遠兮~,而學術界永遠會超前於工業界,有些時候難免也會有些一廂情願……這些線索表明:①ai的發展非常迅速②學術界和工業界不同步的現象是共存的。過去的一年在nlp領域裡,知識圖譜的發展是最為耀眼的,最為尷尬的仍然是chatbot的多輪對話。知識圖譜底層更高於rdf層次的語言被提出並進行研究中,關係抽取,遠端監督,深度學習與gan的引入改進等等……chatbot的對話策略以及評價標準目前工業界仍然茫然~

關於第一方面,語義表示,獲取到它之後做相似度運算是nlp裡經常遇到的場景,我就把他作為切入點。語義表示,我個人有一條主線:詞語——>句子——>文章。先說詞語,詞語是一句話的基本單元,每個詞語對句子的語義貢獻度是不同的,很多詞語有歧義現象,個別詞語是不常見詞,每個詞語在句子中都有固定的位置和順序,詞語與詞語之間存在著近義,反義和不相關的關係。聯結主義如何捕捉到這些特性是詞語語義表示的研究方向!如果能捕捉到這些特性,將大大增加語義理解能力,這點是毋庸置疑的。我們先說一下著名的word2vector,看看他捕捉到了哪些特性,看看他有哪些缺陷,如何尋求改進。首先可以肯定的是,w2v解決了詞語之間的近義,反義問題,但是並不完美。解決詞語之間的關係,主要依靠上下文,每個詞語的語義,與他的上下文概率分布是對應的,這是word2vector成功的地方,同時也是他失敗的地方:①對於多義詞,他的上下文概率分布是多個,不是單一的,而word2vector的建模,顯然是hard的②在建模時沒有考慮到上下文的順序,比如a:謝霆鋒的爸爸是誰?b:謝霆鋒是誰的爸爸?這兩句中的爸爸是不同的含義,w2v是無能為力的。除此之外,詞語的語義平滑處理,增加自適應能力也是必要的。另外,在訓練過程中,由於語料分布的不均勻性,必然會出現語義傾斜問題,這是不可抗拒的因素(在機器學習訓練中,資料傾斜是常見的現象)。基於以上問題,提出以下改進方案:①用高斯混合分布改進w2v的建模,讓獲取的詞語向量表示能夠做到上下文交叉②基於第一點,在此基礎上融合tf_idf思想,進行語義平滑處理,並且在有必要的情況下進行降維處理,注意,我這裡強調的是必要的情況下,也就是不是必須的,看場景,因為在情感分析中,他不是必須的③關於上下文的順序問題,目前還只能與rnn結合,並沒有成型的方案出來。以前在多義詞的理解上,更多的是用crf進行序列化識別,大量依賴人工語義標註,如果能在語義表示上獲得突破,實現非監督學習的**,是最佳的。比如蘋果這個詞,他可能是電腦,手機,logo等等。如果在一句話中,比如我想吃蘋果,用高斯混合分布模型做出的w2v就可以捕捉到蘋果的多個上下文的概率分布,吃是它的上文,這麼簡短的句子,把他的上文吃和蘋果本身累加起來就可以了,不用全部累加,然後與電腦,水果,手機的詞的embedding做元積,運用非監督學習的方法就可以識別出來他的語義了。這是本人理論上的猜想,2023年將重點攻破這個難題。另外一方面,過去一年sif的提出,有可借鑑的地方,用非監督學習方法做句子的語義表示,下面我們來說說句子語義表示。

再回到句子的語義表示問題,有了這些表示,接下來可以進行語義相似度運算了。過去一年,sif和siamese lstm表現優異。先說場景:我們做句子語義相似度運算,達到的效果是相似度為85%,91%等等,並不是粗糙地分類為0和1這麼簡單!因此convnet,dssm等根本達不到我的要求,不能達到state of the art。去年在siamese lstm的實驗裡,這個模型的核心是需要保留的,但還是有些粗糙,需要引入attention model,進一步提公升語義理解的能力,不做詳細論述了。

下面到篇章的語義。過去一年,文章摘要的研究進展緩慢一些,之前本人提出的方案為siamese lstm + hierarchical attention,本質為:①上下文壓縮②語義相似度運算。這是典型的抽取式的摘要。但實際上,有很多機器寫作的需求,比如代替人工寫新聞,諮詢。或者是複述,這都屬於生成式的摘要。而本人的研究方向為兩者結合。對於一些相對較短的新聞資訊,抽取式的可以滿足,而且目前抽取式的比生成式的容易一些,準確率也高。

以上是對語義表示的簡單總結,語義理解除了語義表示和相似度運算外,今後更多的場景是依賴多輪對話,slot填充策略,dst,dm,這也是今年的研究重點。總結起來,今年要做的研究:①個性化推薦的突破②高斯混合分布的w2v模型改進,非監督學習的語義理解③抽取式的和生成式的摘要結合。在自然語言生成這塊兒,重點突破seq2seq生成語句的可讀性。

語義理解是複雜的,是乙個完整的生態圈兒,需要研發平台級別的,而不是簡簡單單乙個音箱之類的。這意味著,做產品的ai創業公司,是遊走在邊緣的,很容易被淘汰。好了,到此為止,不多說了。

下篇部落格,深入細化語義理解:

更多本人精彩部落格推薦:

2023年語義理解總結 一

2017年就這麼悄無聲息地過去了。在工業界,2016年是推薦的元年,2017年是中國的ai元年,這意味著路漫漫其修遠兮 而學術界永遠會超前於工業界,有些時候難免也會有些一廂情願 這些線索表明 ai的發展非常迅速 學術界和工業界不同步的現象是共存的。過去的一年在nlp領域裡,知識圖譜的發展是最為耀眼的...

2023年語義理解總結 二

前面的部落格進行了總述,這篇部落格細化深入,主要結合知識圖譜,kb qa,語義表示的豐富性方面來論述,但是仍然會很寬泛,因為講具體的技術細節,會有很多人矇圈的,沒有太大意義。前面提到,語義理解,一方面要獲取豐富,靈活的語義表示,另一方面要與知識圖譜融合。要想獲取精準的語義理解,比如誰是第乙個為紙牌屋...

Rust Ordering語義理解

目錄參考資料 注 使用條件僅僅針對rust,當前1.43.1版本中rust的所有atomic 實現中都加了 cfg target has atomic load store 8 屬性配置 為什麼需要記憶體順序?rust原子操作操作有5中記憶體順序 relaxed release acquire ac...