統計自然語言處理(詞法)

2021-08-01 21:34:18 字數 1649 閱讀 9926

語法可分為詞法和句法

詞法 句法

現代漢語句法的主要內容包括,句子的基本結構、句子的類別、句子的表達形式三個方面。

句子的基本結構也叫基本成分,包括主語、謂語、賓語、定語、狀語、補語六種成分。其中的主語、謂語、賓語是主要成分,定語、狀語、補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為句子。

句子按其結構的繁簡可分為兩大類:單句和複句。單句又細分為一般單句和複雜單句兩類。複句也可細分為一般複句和多重複句兩類。

按句子的表達作用的不同,可以把句子不同的表達形式歸為四大類:陳述句、疑問句、祈使句、感嘆句。

這裡本來寫的很詳細的,但是這個csdn上的自動儲存並沒有起作用,我一重新整理啥都沒了,不寫了。總結一下好了。

根據詞語之間的頻率來表示,詞語的組成,需要考慮一些常見詞語的影響。有一些『的』、『了』之類的詞語會摻雜進來。所以需要加入頻率過濾器。如下:

過濾後結果如下

對於中文來說,有以下兩個應用:

1.字組成詞語

2.詞語組成復合短語

存在一些不非固定位置的短語,如knock door -> knock the door / knock on the door等,所以需要加乙個視窗來統計詞語頻率、均值、方差。並利用這些特性來反映特徵。雖然這在嚴格意義上可能並不算短語或者片語,但是對於文字生成或者自己某些特定應用上是有很好的實用價值的。

我們掩蓋至今的乙個難題是,高頻率和地方也可能是偶然出現的。比如中文中的「你的」。我們除了可以利用停詞來去除這些例子以外,我們還有一些統計學的方法來排除這些情況。我曾經做過這樣的中文統計分詞,當時我採用了乙個我自稱凝結度的統計量:拼數/字數1….字數n。理解上就是如果乙個詞中的字經常在別處單獨出現,那麼這個詞則可能是偶然組合到一起的。《統計自然語言處理》中,對於這個問題是這麼解釋的,評價乙個事件是否是偶然事件是統計學的經典問題之一。我們通常用假設檢驗來評價。步驟如下:

1.我們定義乙個假設h0(這兩個詞的不是偶然同現)

2.我們計算出事件出現的概率p

3.如果p很小,就否定h0

這樣做的目的是為了讓我們的取樣能反應總體的特徵。我們有乙個非常好的模型,那麼我們就要證明這個模型的好不是由偶然引起的。

文中介紹了t檢驗,卡方檢驗等,這裡因為沒有太多了解其數學原理,這裡不做介紹。最後這一節還介紹了利用不同文字的頻率比來發現特殊領域詞語的方法。

乙個比較簡單的例子就是如果,你能乙個乙個詞的翻譯成外語,這就不太算是乙個搭配。

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

統計自然語言處理(詞彙獲取)

詞彙獲取的一般目的,通過考察大型文字語料庫中詞彙出現的模式,設計一種演算法和統計技術來填補現有電子詞典的不足。在自然語言中我們感興趣的大部分詞的特性並沒有被收錄到電子詞典中,自然語言的新詞和舊詞新用法總是層出不窮,即使我們編輯了現有所有存在的詞彙,過幾天也會有新的出現,所以詞彙獲取在自然語言中則顯得...

Python自然語言處理 統計詞頻

本文所有的例子我都將使用中文文字進行,所以在分析前需要對中文的文字進行乙個預處理的過程 暫時只用的分詞,去除停用詞的部分後面介紹 coding utf 8 from nltk import freqdist import jieba import pymssql 我的資料 於資料庫,用的是爬蟲的小學...