統計自然語言處理（詞法）

語法可分為詞法和句法詞法句法現代漢語句法的主要內容包括，句子的基本結構、句子的類別、句子的表達形式三個方面。句子的基本結構也叫基本成分，包括主語、謂語、賓語、定語、狀語、補語六種成分。其中的主語、謂語、賓語是主要成分，定語、狀語、補語是附加修飾成分。而主語和謂語是句子的必要成分，缺一則不能成為句子。句子按其結構的繁簡可分為兩大類：單句和複句。單句又細分為一般單句和複雜單句兩類。複句也可細分為一般複句和多重複句兩類。按句子的表達作用的不同，可以把句子不同的表達形式歸為四大類：陳述句、疑問句、祈使句、感嘆句。

這裡本來寫的很詳細的，但是這個csdn上的自動儲存並沒有起作用，我一重新整理啥都沒了，不寫了。總結一下好了。

根據詞語之間的頻率來表示，詞語的組成，需要考慮一些常見詞語的影響。有一些『的』、『了』之類的詞語會摻雜進來。所以需要加入頻率過濾器。如下：

過濾後結果如下

對於中文來說，有以下兩個應用：

1.字組成詞語

2.詞語組成復合短語

存在一些不非固定位置的短語，如knock door -> knock the door / knock on the door等，所以需要加乙個視窗來統計詞語頻率、均值、方差。並利用這些特性來反映特徵。雖然這在嚴格意義上可能並不算短語或者片語，但是對於文字生成或者自己某些特定應用上是有很好的實用價值的。

我們掩蓋至今的乙個難題是，高頻率和地方也可能是偶然出現的。比如中文中的「你的」。我們除了可以利用停詞來去除這些例子以外，我們還有一些統計學的方法來排除這些情況。我曾經做過這樣的中文統計分詞，當時我採用了乙個我自稱凝結度的統計量：拼數/字數１….字數n。理解上就是如果乙個詞中的字經常在別處單獨出現，那麼這個詞則可能是偶然組合到一起的。《統計自然語言處理》中，對於這個問題是這麼解釋的，評價乙個事件是否是偶然事件是統計學的經典問題之一。我們通常用假設檢驗來評價。步驟如下：

１．我們定義乙個假設ｈ0（這兩個詞的不是偶然同現）

２．我們計算出事件出現的概率p

３．如果ｐ很小，就否定ｈ0

這樣做的目的是為了讓我們的取樣能反應總體的特徵。我們有乙個非常好的模型，那麼我們就要證明這個模型的好不是由偶然引起的。

文中介紹了ｔ檢驗，卡方檢驗等，這裡因為沒有太多了解其數學原理，這裡不做介紹。最後這一節還介紹了利用不同文字的頻率比來發現特殊領域詞語的方法。

乙個比較簡單的例子就是如果，你能乙個乙個詞的翻譯成外語，這就不太算是乙個搭配。

統計自然語言處理（詞法）

統計自然語言處理自然語言處理是什麼？

統計自然語言處理（詞彙獲取）

Python自然語言處理統計詞頻

統計自然語言處理（詞法）

統計自然語言處理 自然語言處理是什麼？

統計自然語言處理（詞彙獲取）

Python自然語言處理 統計詞頻

相關推薦

統計自然語言處理自然語言處理是什麼？

Python自然語言處理統計詞頻