Python自然語言處理學習筆記 57 小結

2022-03-13 01:44:45 字數 698 閱讀 8930

6.8   summary小結

建模語料庫中的語言資料可以幫助我們理解語言模型,並且可以用於進行關於新語言資料的**。

監督式分類器使用標籤訓練語料庫來構建模型,**基於特定要素輸入的所輸入的標籤。

監督式分類器可以執行很多

nlp任務,包括了文件分類,詞性表彰,語句分割,對話行為型別識別,以及確定蘊含關係,以及其他任務。

當徐連乙個監督式分類器,你應該把你的語料庫分為三個資料集:用於構造分類模型的訓練及,乙個用於幫助選擇和調整模型特性的偏差測試集,以及乙個用於評價最終模型效能的測試集。

當評價乙個監督式分類器時,重要的是你要使用新鮮的沒有包含在訓練或者偏差測試集中的資料。否則,你的評估結果可能會不切實際地樂觀。

決策樹可以自動地構建樹結構的流程圖,用於為輸入變數基於它們的特性賦值。儘管它們可以簡單地解釋,但是它們不適合處理特性值相互影響來決定合適標籤的情況。

在樸素貝葉斯分類器中,每個特性獨立地貢獻來決定哪個標籤應該被使用。它允許特徵值互動,但是當兩個或更多的特性高度地相互對應時將會有問題。

最大熵分類器使用基本的與樸素貝葉斯相似的模型;不過,它們使用了迭代優化來尋找特性加權集來最大化訓練集的可能性。

大多數從語料庫自動地構建的模型是描述性的——它們讓我們知道哪個特性與給定的模式或結構是相關的,但是它們沒有給出關於這些特性和模式之間的因果關係的任何資訊。

自然語言處理學習記錄

v set text1 long words w for w in v if len w 15 找出長度大於7並且出現頻率大於7的單詞 fdisi5 freqdist text5 sorted w for w in set text5 if len w 7 and fdist5 w 7 檢視文字中詞...

《Python自然語言處理》學習筆記(二)

今天的內容涉及對語言簡單的統計和python基本控制流程 if,for 一.計算語言 1.頻率分布 freqdist函式 需要乙個文字作為引數,返回一組鍵值對,鍵是單詞,值時單詞在文中出現的次數。fdist1 freqdist text1 plot函式 通過引數,可以繪製單詞的頻率圖,或者累積頻數圖...

python自然語言處理學習資源彙總

2017.4.18更新 因為pypi的官網並不全。並不全。不全。抑或是並沒有上面這個鏈結這麼使用方便 一目了然導致我找不到 原文 1.nltk 命令 pip install nltk 2.numpy 命令 pip install numpy 3.一不留神下下來五個包,是被 安裝了麼。本來只想下mat...