自然語言處理學習筆記(1) 緒論

2022-09-07 20:45:15 字數 797 閱讀 4341

暑假開始研究nlp,先從宗成慶老師的《統計自然語言處理》開始學起。

一、語言:語言是由語音、詞彙和語法構成的,語音和文字是構成語言的兩個基本屬性,語音是語言的物質外殼,文字則是記錄語言的書寫符號系統。

二、語音學:1)發音語音學(articulatory phonetics)

2)聲學語音學(acoustic phonetics)

3)聽覺語音學(auditory phonetics)

4)儀器語音學(instrumental phonetics)

三、自然語言處理的概念:利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的資訊進行各種型別加工、處理的技術。

交叉學科:語音識別(speech recongnition)

語音合成(speech synthesis)

語音應用:1)人機對話系統

2)語音翻譯

3)語音文件摘要

4)語音文件檢索

10)語音識別asr;11)文語轉換;12)說話人識別、認證、驗證

五、自然語言處理設計的層次:1)形態學

2)語法學

3)語義學

4)語用學

六、面臨的困難:1)歧義消解(disambiguation)

2)未知語言現象處理(如網路語言、火星語、遊戲語言)

歧義分析結果隨著介詞短語數目的增加呈現指數上公升

組合數開塔蘭數

歧義的種類:1)句法結構歧義;2)詞類歧義;3)詞義歧義;4)語義歧義

七、nlp的基本方法和步驟

1)收集語料作為統計模型建立的基礎

2)篩選加工

自然語言處理學習筆記 006

常用的分詞方法 自然語言處理常用的分詞方法有正向和逆向最大匹配 最短路徑 全切分 最大概率 n 最短路徑等方法。現在流行起來的還有最大熵模型 hmm模型 決策樹 bp神經網路 n gram等方法。現在我很想把它們在分詞中的聯絡和區別都一一搞清楚。最大匹配分詞方法簡單 容易實現,但是無法解決上面提到的...

自然語言處理學習筆記 007

分詞標註一體化 概率全切分標註模型 詞性標註的基本方法有兩種基於規則的方法和基於統計的方法。基於規則的方法需要採用人工的方法構建大量的語法規則,該方法不易保證規則的完備性和在真實文字處理中的有效性。基於統計的方法主要有基於隱馬爾可夫模型 基於最大熵的方法和決策樹等方法。其中基於馬爾可夫模型的方法是詞...

自然語言處理學習記錄

v set text1 long words w for w in v if len w 15 找出長度大於7並且出現頻率大於7的單詞 fdisi5 freqdist text5 sorted w for w in set text5 if len w 7 and fdist5 w 7 檢視文字中詞...