NLP 2 語言結構和傳統pipeline

2021-10-19 16:24:25 字數 1816 閱讀 2100

依賴語言符號(sign),定義更重要的概念:

語言是一組符號,語法包含:一組signs,語言的詞典(lexicon)和有限的操作使乙個sign對映到另乙個;

語法生成語言,當操作了一定數量次數的語法在他的詞典上;

語法操作分為 上一章說的四個部分,同時進行;也有一些嚴格在morphology和syntax或者只是syntax。

語言的中心目標是描述語法生成自然語言:

explicitly,通過描述字典和定義operation生成語言元素;

implicitly,通過提供已經由語法生成的例子表示集合(帶有morphology,syntactic標籤)。

1 parsing 解析:

2 生成 generation:

1 形態和語法:

句子層面:

子結構:

語法結構層面:

2 語義

1切分輸入字元系列,給tokens分配型別,分成word-like 單元

不僅有詞,還有標點,emoticons,不是詞但時對分割有用的單元

表明這些分割是特定型別的例項組成vocabulary。(大小寫屬於同乙個type)

什麼算做乙個token?

task and model-dependent(一些標點不相關,一些相關)

2 分配型別和歸一化

tokenization確定token型別的過程中歸一化,忽略大小寫,

歸一化方法:

更radical 的策略包含分配所有的數字表述或者字典沒有的都為乙個type. 對於tokenization的挑戰,不僅依賴方法,還依賴輸入的書寫,語言,domain,noise(typos)歐洲語言的縮寫,數字表示,一詞多義

分割輸入字元為一些句子

1最小的有意義單元,word包含一些morphemes(詞素)

2 詞幹和lemma

次幹包含主要部分(太粗魯),在所有變形的詞中的base部分,有時候不是有意義的詞(produc)

lemma相反,是個完整的詞,是在所有的變形詞中不發生變形的詞(produce)

3 形態學分析任務

4 形態學分析挑戰

open和closed pos 類別:

1 constituency(aka phrase 結構)和dependency based syntactic 理論對nlp很重要

2 constituent是乙個詞或者一組consecutive·連續的詞形成了乙個自然單元

3 constituency-based syntax語法

4 dependency-based 語法(有向關係 詞詞依賴)

treat 詞之間的dependency 關係作為基礎

通常是d word 依賴 h word(h head d)在乙個句子,if

5 什麼時候dependency?

任務是找到輸入text的表達中的那些naming 實體,再給這些實體貼上標籤。name一些typical 的詞,分出類別。

通常這些實體是person,組織,地點,也有一些是data,event,…

決定實體命名的指代,確定referring表達的邊界範圍,包含常見名詞代詞,cluster 他們,根據誰的成員都屬於乙個實體來分組。

word sense disambiguation

連線表達與meanings/senses 在外部inventory

identify predicate 和 argument 表達(謂語和賓語)

full or deep 語**析,不僅包括coreference resolution,wsd he 謂語賓語結構,還打算提供完整的formal 語義表示

NLP 2 語言模型

馬爾科夫假設 markov assumption 乙個詞出現的概率僅依賴於它前面的乙個或幾個詞。一元語言模型 unigram 即樸素貝葉斯假設。三元語言模型 trigram 考慮乙個詞對前兩個詞的依賴關係。關於給句子加開始符與結束符的問題 加開始符應該相應地加上結束符,至於為什麼,現在還不是很理解。...

c語言的傳值和傳址

我們都知道c語言中函式傳參有兩種方式 傳值和傳址 傳值 實參把值傳給形參,但沒有傳位址,即對實參的修改無效 生成臨時變數 核心原理 函式會對形參和中間變數重新分配空間 void swap int pleft,int pright 優點 安全 函式的 不會影響外部實參 區域性變數值的交換對主函式的變數...

自然語言處理(NLP)知識結構總結

原文 一 自然語言處理概述 1 自然語言處理 利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的演員問題的一門學科,是人工智慧的主要內容。2 自然語言處理是研究語言能力和語言應用的模型,建立計算機 演算法 框架來實現這樣的語言模型,並完善...