自然語言處理相關書籍及其他資源

2021-06-20 05:35:03 字數 814 閱讀 9626

特別推薦:

1、hmm學習最佳範例全文文件

2、無約束最優化全文文件

一、書籍:

1、《自然語言處理綜論》英文版第二版

2、《統計自然語言處理基礎》英文版

3、《用python進行自然語言處理》,nltk配套書

4、《learning python第三版》,python入門經典書籍,詳細而不厭其煩

5、《自然語言處理中的模式識別》

6、《em演算法及其擴充套件》

7、《統計學習基礎》

三、語言資源和開源工具:

1、brown語料庫:

a) xml格式的brown語料庫,帶詞性標註;

b) 普通文字格式的brown語料庫,帶詞性標註;

c) 合併並去除空行、行首空格,用於詞性標註訓練:browntest.zip

2、nltk官方提供的語料庫資源列表

3、opennlp上的開源自然語言處理工具列表

4、史丹福大學自然語言處理組維護的「統計自然語言處理及基於語料庫的計算語言學資源列表」

5、ldc上免費的中文資訊處理資源

另外finalllyliuyu在2023年9月又提供了一批文本文類語料,詳情見:獻給熱衷於自然語言處理的業餘愛好者的中文新聞分類語料庫之二

四、文獻:

1、acl-ijcnlp 2009**全集:

a) 大會**full *****第一卷

b) 大會**full *****第二卷

c) 大會**short *****合集

d) acl09之emnlp-2009合集

e) acl09 所有workshop**合集

NLP自然語言處理相關

近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...

統計自然語言處理書籍閱讀心得四

1 困惑度 我們通常用困惑度 perplexity 來代替交叉熵 衡量語言模型的好壞。同樣,語言模型設計的任務就是尋找困惑度最小的模型,使其最接 近真實語言的情況。在自然語言處理中,我們所說的語言模型的困惑度 通常是指語言模型對於測試資料的困惑度。一般情況下將所有資料分成 兩部分,一部分作為訓練資料...

統計自然語言處理書籍閱讀心得六

自動機理論 1 有限自動機,有限自動機又分為確定性有限自動機 definite automata,dfa 和不確定性有限自動機 non definite automata,nfa 兩種。其中,是輸入符號的有窮集合 q是狀態的有限集合 q0 q是初始狀態 f是終止狀態集合,f q 是q與 的直積 就是...