規則和統計(上)

2021-07-31 15:59:19 字數 787 閱讀 9794

科學家們原本以為隨著nl語法概括得越來越全面,同時計算機計算能力的提高,這種方法可以逐步解決nl理解的問題。但是很快遇到了麻煩,要想通過文法規則覆蓋哪怕20%的真實語句,文法規則的數量也至少是幾萬條。語言學家幾乎已經來不及寫了,而且這些規則到後來甚至會出現矛盾,為了解決矛盾,還要說明各個規則的使用環境。nlp在演變過程中,產生了詞義和上下文相關的特性。因此,它的文法是比較複雜的上下文有關文法。圖靈獎得主高德納提出了用計算複雜度來衡量演算法的耗時。對於上下文無關文法,演算法的複雜度基本上是語句長度的二次方,而對於上下文有關文法,計算複雜度基本上語句長度的六次方。也就是說,後者計算機的計算量是前者指數倍,而且隨著語句增長,二者計算差異會以更快的速度擴大。即便今天用i7四核處理器,分析二三十個詞的句子也要一兩分鐘。所以,在20世紀70年代,即便是ibm這樣的大公司,也不可能採用規則的方法分析一些真實的語句。

在上世紀70年代,基於規則的句法分析就走到了盡頭。2023年,著名人工智慧專家明斯基舉了乙個簡單的反例,說明計算機處理語言的難處,「the pen is in the box.」和「the box is in the pen.」中兩個pen的區別,第一句很好理解,第二句會讓人困惑,因為pen還有圍欄的意思。這裡pen是指鋼筆還是圍欄,通過上下文已經不能解決,需要常識。可以說,利用計算機處理自然語言的努力在70年代初之前是相當失敗的。

15年,對於乙個學者來講是乙個非常長的時間,如果乙個人從博士開始就選錯了方向並且堅持錯誤,到15年後才發現,基本上一輩子可能就一事無成了。這場爭議之所以持續了15年,是因為乙個新的研究方法要成熟需要很多年。當時,基於統計的方法的核心模型是通訊系統

+隱馬爾可夫模型。

dotcloud上Nginx的url規則重寫

wordpress預設的固定連線形式是 p postid形式,為了是連線看起來更加人性化和便於理解,便需要修改固定連線的設定。在wordpress後台 設定 固定連線中設定了形式後,還需要在dotcloud上重寫url。步驟如下 1 dotcloud ssh blog.www 登入ssh 2 cd ...

不規則月份統計報表的實現

不規則月份統計 如果起始時間是2014 01 10,則將2014 01 10到2014 02 09作為一組,將2014 02 10到2014 03 9作為一組。如果起始時間是2014 01 31,則將2014 02 27作為一組,將2014 02 28到2014 03 30作為一組。集算器 a1 根...

Birt 如何實現不規則月份統計

集算器實現 birt 等報表工具中不規則月份統計 業務報表中,常常需要基於時間段進行分組統計,特別是按月份分組統計。一般情況如果按自然月就簡單了,但有時候也會需要按不規則月份來分組。例如,某企業從 1 月 16 日開始實行某種特殊的 策略或營銷活動,因此以後都想以每月 16 號為界來統計產品銷售情況...