自然語言處理學習筆記 007

2021-06-10 02:31:09 字數 455 閱讀 1186

分詞標註一體化--概率全切分標註模型

詞性標註的基本方法有兩種基於規則的方法和基於統計的方法。基於規則的方法需要採用人工的方法構建大量的語法規則, 該方法不易保證規則的完備性和在真實文字處理中的有效性。基於統計的方法主要有基於隱馬爾可夫模型、基於最大熵的方法和決策樹等方法。其中基於馬爾可夫模型的方法是詞性標註領域應用最廣泛、最成熟的方法。

概率全切分標註模型是一種改進的分詞標註一體化方法,基於概率切分模型和馬爾可夫模型。該方法的特點是將分詞和標註兩部分工作融為一體同時進行,然後再利用全切分得到的所有可能分詞結果計算每一種可能詞串的聯合概率,並且利用馬爾可夫模型標註器計算出每一種詞串標記序列的概率,最後便可得到可能處理的結果。該方法最大程度上提高了查詢結果的準確率和召回率。

什麼是全切分?就是把所有的分詞結果都切分出來。

什麼是馬爾可夫模型?和隱馬爾可夫模型有什麼區別呢?

什麼叫分詞標註一體化?分詞和標註同時進行吧。

自然語言處理學習筆記 006

常用的分詞方法 自然語言處理常用的分詞方法有正向和逆向最大匹配 最短路徑 全切分 最大概率 n 最短路徑等方法。現在流行起來的還有最大熵模型 hmm模型 決策樹 bp神經網路 n gram等方法。現在我很想把它們在分詞中的聯絡和區別都一一搞清楚。最大匹配分詞方法簡單 容易實現,但是無法解決上面提到的...

自然語言處理學習記錄

v set text1 long words w for w in v if len w 15 找出長度大於7並且出現頻率大於7的單詞 fdisi5 freqdist text5 sorted w for w in set text5 if len w 7 and fdist5 w 7 檢視文字中詞...

《Python自然語言處理》學習筆記(二)

今天的內容涉及對語言簡單的統計和python基本控制流程 if,for 一.計算語言 1.頻率分布 freqdist函式 需要乙個文字作為引數,返回一組鍵值對,鍵是單詞,值時單詞在文中出現的次數。fdist1 freqdist text1 plot函式 通過引數,可以繪製單詞的頻率圖,或者累積頻數圖...