《Python自然語音處理》簡要筆記

2021-08-15 21:49:25 字數 2234 閱讀 4037

第一章 語言處理與python

1.1 文字和詞彙 基本講了nltk入門,concordance,similar,common_contexts,generate,識別符號(所有單詞計數len),型別(單詞型別總數set),詞彙多樣性(單詞平均詞頻)

1.2 將文字當做鍊錶 其實就是將文字中的單詞變成list中的元素

1.3 簡單的統計 詞頻率,詞語搭配(bigram,2-gram)red wine和the wine,計算其它東西,不同詞長度的出現次數。

1.4 回到python:決策與控制 python 巢狀等

1.5 自動理解自然語言 詞意消歧,指代消解,自動生成語言,機器翻譯,人機對話系統,文字的含義。

第二章 獲得文字語料和詞彙資源

2.1 獲取文字語料庫 基本是說nltk的基本語料庫,還有新增自己語料的教程

2.2 條件分布

(1)計算不同型別的文字,詞語的頻率,比如說news,和romance型別中文字中哪些詞用得多,使用conditionalfreqdist.

(2)使用雙連詞(bigram,2-gram)生成隨機文字,計算出雙連詞頻率後,給定乙個單詞,比如living ,然後給出緊跟單詞 creature

2.3 更多關於python:**重用 講了一下python程式設計

2.4 詞典資源

(1)詞彙表,停用詞,可檢查罕見詞彙或者拼寫錯誤單詞

(2)發音詞典,在nltk中包括美國英語的cmu發音詞典,每個單詞都有其發音,可通過發音找押韻詞

(3)比較詞典,在nltk中包含了多種語言的翻譯關係,斯瓦迪士核心此列表swadesh

(4)詞彙工具,toolbox,shoebox目前最流行的語言學家用來管理資料的工具,包含了各種語言詞彙,詞性,和其它語言翻譯關係

2.5 wordnet

1.wordnet面向語義的英語詞典,之所以命名有net說明其具有層次結構,結構包含了同義詞,上下級關係等,可用來查詢同義詞,語義相似度

第三章 處理原始文字

3.1 從網路和硬碟訪問文字

(1)通過本地磁碟訪問,進行切詞

(2)通過url直接訪問網頁

(3)通過搜尋引擎獲取資訊,比如搜尋」the of」然後會出現啥東西,該結果就可以說是和」the of」相匹配

(4)可通過feedparser第三方庫爬去部落格資訊

(5)pdf,word這種二進位制檔案可以使用第三方庫pypdf,pywin32

3.2 字串:最底層處理 其實就是一些python字串處理方法

3.3 使用unicode進行文字處理

3.4 使用正規表示式檢測片語搭配

3.5 正規表示式的有益應用 母音匹配,查詢詞幹

3.6 規範化文字 詞幹提取器,詞形歸併

3.7 用正規表示式為文字分詞

3.8 分割 斷句,分詞

3.9 格式化:從鍊錶到字串 一些字串和鍊錶的轉換,格式化等等,可以採用textwrap模組進行格式化輸出

第四章 編寫結構化程式

整章都在介紹python程式設計基礎

第五章 分類和標註詞彙

5.1 使用磁性標註器

5.2 標註語料庫

5.3 使用python字典對映詞及屬性

5.4 自動標註(自動詞性標註)

5.5 n-gram標註(在標註之前,考慮前n個詞後再標記)

5.6 基於轉換的標註

5.7 如何確定乙個詞的分類

第六章 學習分類文字

6.1 監督式分類

(1)nltk有內建的分類演算法

(2)探索上下文語境,根據上下文語境,將特徵詞的詞性作為特徵加進來

6.2 監督式分類舉例

(1)句子分割

(2)識別對話行為型別

(3)識別文字蘊涵

6.3 評估

6.4 決策樹

6.5 樸素貝葉斯分類器

6.6 最大熵分類器

6.7 為語言模式建模

第七章 從文字提取資訊

7.1 資訊提取

例子:給出一段文字,輸出***公司及公司的位置

流程 斷句(句子分割器)->分詞(分詞器)->(詞性標註)->命名實體識別(分塊技術)->確認關係

7.2 分塊

7.3 開發和評估分塊器

7.4 語言結構中的遞迴

7.5 命名實體識別

7.6 關係抽取

第八章 分析句子結構

未完待續

《Python自然語言處理》

python自然語言處理 基本資訊 出版社 人民郵電出版社 isbn 9787115333681 出版日期 2014 年6月 開本 16開 頁碼 508 版次 1 1 所屬分類 計算機 軟體與程式設計 python 更多關於 python自然語言處理 內容簡介 書籍計算機書籍 自然語言處理 natu...

什麼是自然語言處理? 語音和文字AI

從facebook上的乙個朋友 我 alexa 我已將龍舌蘭酒新增到您的購物清單中。理解機器學習的意義 人工智慧,機器學習和深度學習 您需要知道的一切 深度學習解釋了 機器學習的解釋 機器學習演算法進行了解釋 軟體工程師的機器學習技能 通過infoworld大資料和分析報告時事通訊深入了解分析和大資...

《python自然語言處理》筆記

工欲善其事,必先利其器 資源準備 python matplotlib包安裝見我的部落格 通過大量的例子和聯絡,python自然語言處理 將會幫助你 前言 為什麼使用python?操作file.txt檔案,輸出所有字尾是 ing 的詞。coding utf 8 for line in open r d...