NLP 自然語言理解概述

2021-07-03 20:50:06 字數 2442 閱讀 2016

語言是人類有別於其他動物的乙個重要標誌。自然語言是區別於形式語言或人工語言(如邏輯語言和程式語言等)的人際交流的口頭語言(語音)和書面語言(文字)。

語言是人類進行通訊的自然媒介,它包括口語、書面語以及形體語(如啞語和旗語)等。一種比較正規的提法是:語言是用於傳遞資訊的表示方法、約定和規則的集合。語言由語句組成,每個語句又由單詞組成;組成語句和語言時,應遵循一定的語法與語義規則。語言由語音、詞彙和語法構成。語言和文字是構成語言的兩個基本屬性。如果沒有各種口語和書面語,如英語、漢語、法語和德語等,人類之間的充分和有效的交流就難以想象。語言是隨著人類社會和人類本身的發展而不斷進化的。現代語言允許任何乙個具有正常語言能力的人與他人交流思想感情和技術等。

要研究自然語言理解,首先必須對自然語言的構成有個基本的認識。

語言是音義結合的詞彙和語法體系,是實現思維活動的物質形式。語言是乙個符號體系,但與其他符號體系又有所區別。

語言是以詞為基本單位的,詞彙又受到語法的支配才可構成有意義的和可理解的句子,句子按一定的形式再構成篇章等。詞彙又可分為詞和熟語,熟語就是一些詞的固定組合,如漢語中的成語。詞又由詞素構成,如「教師」是由「教」和「師」構成。

語法是語言的組織規律。語法規則制約著如何把詞素構成詞,詞構成片語和句子。語言正是在這種嚴密的制約關係中構成的。用詞素構成詞的規則叫構詞規則,如教+師->教師。乙個詞又有不同的詞形、單數、複數、陰性、陽性等。這種構造詞形的規則叫做構形法,如教師+們->教師們。構形法和構詞法稱為詞法。詞法中的另一部分就是句法。句法也可分成兩部分:片語構造法和造句法。片語構造法是詞搭配成片語的規則,如紅+鉛筆->紅鉛筆。這裡」紅「是乙個修飾鉛筆的形容詞,它與名稱」鉛筆「組合成了乙個新的名詞。造句法則是用詞或片語造句的規則。」我是計算機專業的學生「,這是按照漢語造句法構造的句子。

另一方面,語言是音義結合的,每個詞彙有其語音形式。乙個詞的發音由乙個或多個音節組合而成,音節又由音素構成,音素分為母音音素和子音音素。自然語言中所涉及的音素不多,一種語言一般只有幾十個音素。由乙個發音動作所構成的最小的語音單位就是音素。

迄今為止,對語言理解尚無統一和權威的定義,按照考慮問題的角度不同而有所不同的解釋。從微觀上講,語言理解是從自然語言到機器內部之間的一種對映。從巨集觀上講,語言理解是指機器能夠執行人類所期望的某些語言功能。這些功能包括

然而,對自然語言的理解卻是乙個十分艱難的任務。即使建立乙個只能理解片言斷語的計算機系統,也是很不容易的。這中間有大量的極為複雜的編碼和解碼問題。乙個能夠理解自然語言的計算機系統就像乙個人那樣需要上下文知識以及根據這些知識和資訊進行推理的過程。自然語言不僅有語義、語法和語言問題,而且還存在模糊性等問題。具體的說,自然語言理解的困難由下列三個因素引起的:

目標表示的複雜性

對映型別的多樣性

源表達中各元素間互動程度的差異性

自然語言理解是語言學、邏輯學、生理學、心理學、電腦科學和數學等相關學科發展和結合而形成的一門交叉學科,它能夠理解口頭語言或書面語言。語言交流是一種基於知識的通訊。

自然語言處理是用計算機對人類的口頭和書面形式的自然語言進行加工處理和應用的技術,是一門它設計語言學、數學、電腦科學和控制論等多門學科交叉的邊緣學科,是人工智慧學科和智慧型科學的乙個重要分支,也是人工智慧的早期的和活躍的研究領域。

自然語言處理包括自然語言理解和自然語言生成兩個方面。自然語言理解系統把自然語言轉化成電腦程式更易於處理和理解的形式。自然語言生成系統則把與自然語言有關的計算機資料轉化為自然語言。

文字識別(optical character recognition,ocr)

語音識別(speech recognition)

機器翻譯(machine translation)

自動文摘(automatic summarization)

句法分析(syntax parsing)

文字分類(text categorization)

資訊檢索(information retrieval)

資訊獲取(information extraction)

資訊過濾(information filtering)

自然語言生成(natural language generation)

中文自動分詞(chinese word segmentation)

語音合成(speech synthesis)

問答系統(question answering system)

語言雖然表示成一連串的文字元號或者一串聲音流,但其內部事實上是乙個層次化的結構,從語言的構成中就可以清楚的看到這種層次性。乙個文字表達的句子是由詞素->詞或詞形->片語或句子,而用聲音表達的句子則是由音素->音節->音詞->音句,其中每個層次都受到語法規則的制約。因此,語言的分析和理解過程也應當是乙個層次化的過程。許多現代語言學家把這一過程分為5個層次:

語音分析

詞法分析

句法分析

語義分析

語用分析

參考書目

人工智慧及其應用(蔡自興 徐光祐)

NLP自然語言處理

第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...

NLP自然語言處理相關

近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...