自然語言處理基礎學習

2021-04-12 13:46:46 字數 1434 閱讀 2297

自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期,計算機語言蓬勃發展,形式語言理論趨向成熟,這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性,以及自然語言的上下文有關性,導致不能得到廣泛的運用。

擴種轉移網路atn是一種多功能自然語言的語法表示理論。它對表層和深層結構分析同時進行,所以對語言中規整的部分而言是一種可實現的、有效的理論。但是atn是一種非模組的結構,隨著節點的增多、複雜性會急劇增長,對語法的緊密依賴也限制了對不符合語法的句子的處理能力。

格語法和概念依存理論較好第解決了語法和語**釋的組合問題,。格的文法不僅與語法相關也與語義關係相關,語法和語義是統一的。其基本理論根據為:任何兩個意義相同的句子具有相同的內部表達。概念分析的過程直接把文字轉換成語義表示。這是個很重要的問題,基於這個理論,可以定義一些表示行為意義的原語,這些原語有成為繼續研究的基礎。

進入80年代後,又提出了廣義短語結構語法、功能合一語法、詞彙功能語法等。他們認為,乙個語法框架只能解釋為各種語言的語法的形式語言,是一種定義語法的原語言,其語義以語言中的語法單位作為描述物件。因此其重要的工作就是構造乙個受限原語言。它是就表層結構的,力圖由觀察到的語言現象來進行描述和解釋,而不依賴於抽象的深層結構。這些語法理論,都是在語言單位的表示中使用複雜的特徵結構,在分析過程中使用合一運算。由於具有簡單清晰的規範體系,在自然語言的處理中得到廣泛的運用。這段時期的工作是前人工作的進一步發展,但我認為沒有突破性的進展。工作的思想是繼續試圖用語法來描述自然語言。不過不再試圖用語法和語義相結合來描述整個的自然語言,而是趨向於尋找一種元描述機制來描述語言,這樣也增加了描述的靈活性。這種思想應該繼承於格語法。

以上的技術主流都是句法-語義分析,普遍依據的是人工智慧中的知識表示理論和推理方法。造成這些理解模型都是基於規則的,而在序列的計算機上構造乙個包含大量語法規則、複雜推理機制的自然語言處理系統很困難。後來出現了以語料庫語言學和神經網路自然語言處理機制。

語料庫基於大量的真實文字,它研究的是自然語言文字的採集、儲存、檢索、統計、語法標註、語法-語義分析等。它一方面依賴於統計特徵而不是完全依賴於邏輯規則,一方面起處理物件是非受限領域的語言。隨著網際網路技術的發展和搜尋技術的進步,預料庫語言學呈蓬勃發展的姿態,他和搜尋技術互相促進。

神經網路技術試圖模擬人的思維,從而解決語言中線性排列的詞語中多維網際網路狀的複雜語義關係,語義和語用難以形式化以及序列符號方法不具有推廣效能和自學習的能力等問題。它由許多個相同或相識的神經元組成,通過廣泛連線構成網狀結構,並採用分布式並行處理演算法。人們發現基於馮.諾尹曼體系的符號處理方法來處理自然語言的極限性很大,而基於這種方法,不需要編寫大量的產生式規則,只要提供給系統足夠的預料。後來的成果有語義的分布式表示,如分布式表示和區域性表示、分類和層次表示等。這是乙個很有突破性,很有影響力的成果。

後期的研究是不是可以在這個的基礎繼續發展?將各種方法組合起來使用?文章的發表已經過去10年,這十年裡發生了什麼呢?我將繼續分析和學習。感覺上預料庫技術應該隨著搜尋技術的發展膨脹起來了吧。

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...