深入機器學習系列之自然語言處理

2021-10-11 01:39:23 字數 3067 閱讀 1392

資料猿官網 | www.datayuan.cn

自然語言處理(nlp)是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。隨著深度學習在影象識別、語音識別領域的大放異彩,人們對深度學習在nlp的價值也寄予厚望。自然語言處理作為人工智慧領域的認知智慧型,成為目前大家關注的焦點。

目錄

基本概念

研究的基本問題

研究的主要內容

面臨的困難

發展趨勢

一、基本概念

自然語言處理的定義:

"自然語言處理又稱為自然語言理解,就是利用計算機為工具對人類特有的書面形式和又頭形式的自然語言的資訊進行各種型別處理和加工的技術。」

—— 馮志偉《自然語言的計算機處理》

二、 研究的基本問題

1. 語音學

語音學(phonetics)問題:研究詞及其語音的關聯

2. 形態學

形態學(morphology)問題:研究詞是如何由有意義的基本單位-詞素(morphemes)構詞的。

詞素是從詞或者詞幹的直接成分的角度來確定的音義結合體。字和詞素不是一一對應的:

一、有的漢字實際上代表不同的詞素。如「副」這個字代表多種詞素:「第二的、次級的」、「相配、相稱」、某種計量單位。

二、同一詞素可以由不同的漢字來表示。如:「來吧」中的「吧」可以由「罷」代替。三、有些漢字在某些場合屬於詞素,某些場合不是。如:「沙」在「泥沙」裡面是詞素,在「沙發」裡面不代表意義。詞素與詞的關係是「詞素的功能是構詞詞」。

詞素構詞有兩種情況:

一、乙個詞素單獨構詞乙個詞。如:人、魚、書、蜈蚣等。

二、兩個或兩個以上的詞素構詞乙個詞。如:人+民,機+器等。

3. 語法學

語法學(syntax)問題:研究句子結構成分之間的相互關係和組成句子的序列。

4. 語義學

語義學(sementics)問題:研究如何從乙個語句中詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義。

(1)蘋果不吃了

(2)這個人真牛

(3)火燒圓明園/火燒驢肉

5. 語用學

語用學(pragmatics)問題:研究在不同上下文中的語句的應用,以及上下文對語句理解所產生的影響。從狹義的語言學觀點看,語用學處理的是語言結構中有形式體現的那些語境。相反,語用學最寬泛的定義是研究語義學未能涵蓋的那些意義。

(1)火,火!

(2)a:看看魚怎麼樣了?

b:我剛才翻了一下。

三、研究的主要內容

1. 機器翻譯

認為翻譯的過程是需要對源語言的分析和源語言意義的表示,然後再生成等價的標語言的過程。根據翻譯過程的不同,規則方法可分為兩種主要方法:基於轉換的方法的翻譯過程包括三個階段:分析得到一種源語言的抽象表示;把源語言的抽象表示轉換為目標語言的抽象表示 ;由目標語言的抽象表示生成目標語言。基於中間語言的方法在對源語言分析後產生的是中間語言,而目標語言的生成是直接由這種中間語言開始的。

本質是「以翻譯例項為基礎,基於相似原理的機器翻譯」,其利用的主要知識源是預處理過的雙語語料和翻譯詞典。基於例項的翻譯過程通常包括三步: 在翻譯例項庫中搜尋匹配片段;確定相應的譯文片段;重新組合譯文片段以得到最終翻譯。

也是基於雙語語料庫的,但與基於例項的方法在翻譯過程中直接使用翻譯 例項不同,統計方法通過事先的訓練過程將雙語語料庫中隱含的翻譯知識抽象成統計模型, 而翻譯過程通常就是基於這些統計模型的解碼過程。

神經機器翻譯與傳統的統計機器翻譯不同,神經機器翻譯的目的是建立乙個單一的神經網路,可以聯合調整,以最大限度地提高翻譯效能。最近提出的用於神經機器翻譯的模型通常屬於編碼器-解碼器族,且將源語句編碼成固定長度向量,解碼器從該向量生成翻譯。

2. 資訊檢索

3. 自動文摘

4. 文件分類

5. 問答系統

6. 文字識別

7. 語音識別

8. 語音生成

四、面臨的困難

1. 語義歧義

如:他說:「她這個真有意思 (funny)」。她說:「他這個怪有意思的 (funny)」。於是他們以為他們有意思 (wish),並讓他向她意思意思 (express)。他說:「我根本沒有那個意思 (thought)」!她也說:「你們這麼說是什麼意思 (intention)」?事後有人說:「真有意思 (funny)」。也有人說:「真沒意思 (nonsense)」。

2. 存在未知的語言現象

五、發展趨勢

如今,如何有效利用海量資訊已成為資訊科技發展的乙個關鍵性問題。自然語言處理則無可避免地成為該領域長期發展的乙個新的戰略制高點。路漫漫其修遠兮,nlp作為乙個高度交叉的新興學科,不論是**語言本質還是付諸實際應用,必定還會有令人期待的驚喜和異常快速的發展。

機器學習 深度學習 自然語言處理

文字挖掘 文字分類 機器翻譯 客服系統 複雜對話系統 手工特徵耗時耗力,還不易拓展 自動特徵學習快,方便擴充套件 深度學習提供了一種通用的學習框架,可以用來表示世界,視覺和語言學資訊 深度學習可以無監督學習,也可以監督學習 我 今天 下午 打籃球 p s p w1,w2,w3,w4,w5,wn p ...

自然語言處理系列 開篇

前幾天在網上意外搜到了自然語言處理 natural language processing,nlp 的學習路線圖 roadmap,點這裡 一共四張,分別介紹了概率 統計 機器學習 文字挖掘 nlp背景 和基於深度學習的自然語言處理,仔細看下來,既欣喜又慚愧。欣喜的是地圖內容全面而有條理,通篇下來幾無...

機器學習 自然語言處理方向面試

360實習生面試過程 18年2月初去的360面試,這是第一次去大型網際網路公司面試,也只是抱著試試看的念頭,但是年後hr給我打 說我通過了,然後就沒再準備其他公司的,一心等3月多去公司。結果,一直沒等到正式offer的我給公司打 跟我說人招滿了,忘記通知我了。呵呵到無話可說,如果第乙個 告訴我說我沒...