《統計自然語言處理》(宗成慶)學習筆記(一)

2021-09-26 23:36:45 字數 1141 閱讀 3882

一、提出問題

二、基本概念

1、語言學與語音學

語言的兩個基本屬性:語音、文字

2、語言學:研究語言的學科,包含語言的本質、結構、發展規律

3、語音學:研究發音特點

4、計算機語言學:計算技術和概念、語言學和語音學問題

5、自然語言處理 or 自然語言理解

關於「理解」的標準:計算機智慧型——表現、反映、人機互動——圖靈

測試三、自然語言處理研究的內容和面對的困難

(一)研究內容

機器翻譯

自動文摘

資訊檢索

文件分類

問答系統

資訊過濾

資訊抽取

文字編輯和自動校對

光讀字元識別ocr

語音識別

文字挖掘

語音識別

語音合成

輿情分析

等等…

(二)自然語言涉及的幾個層次

1、形態學

2、語法學:語法規律、句子結構

3、語義學(根本問題):詞的含義——句的含義——段落篇章的含義

4、語用學:特定環境的文字用法

(三)面臨的困難

1、歧義:語義歧義、結構歧義

eg:put the block[ in the box on the table].

put [the block in the box] on the table.

2、未知的語言

四、自然語言處理的基本方法及其發展

(一)基本方法

理性主義

經驗主義

知識**

與生俱來

大量的語言資料

研究物件

語言知識結構、符號、規則

語言資料

理論chomsky的語言原則

shannon的資訊理論

應用形式語言

統計模型

(二)發展和現狀

1、萌芽期(2023年)——發展期(2023年)——繁榮期(20世紀80年代末)

2、目前已經取得了一定的研究成果,但是根本問題還未解決。

3、新的研究方向不斷湧現,具有極大發展前景。

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

統計自然語言處理基礎學習筆記(1)

識別文字中的搭配 識別搭配有很多方法,書中介紹了基於頻率的搭配識別,基於含義和主詞搭配之間距離的識別,基於假設測試和互資訊的識別。1.基於頻率的識別 如果兩個詞在一起出現了很多次,那麼就是乙個證據說明它們有特殊的功能,可以預計到的是僅僅找到最頻繁出現的二元組結果並不理想,會出現很多由2個功能詞組合的...

統計自然語言處理(詞法)

語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...