原創《數學之美》讀書筆記第2章

前一章節的最後，作者提到了乙個語言學研究方法的問題：究竟是語言對，還是語法對。也即為，究竟是從真實的語句文字（成為語料）出發，還是從規則出發。最後自然語言處理的成就宣布了前者的勝利。也就是，從規則到統計。

本章節主要講的是自然語言處理的發展史，其中分為兩個階段，前一階段是科學家們走彎路的時候，也即為用電腦模擬人腦。而後一階段，科學家們開始利用基於數學模型和統計的方法，這才使得自然語言處理開始取得實質性的進展。

在2023年，當時的科學家們認為，要讓電腦來模擬人腦，學會處理語言，前提是得讓電腦理解人類的語言。（其實一直以來，我也一直以為自然語言處理是基於這樣的乙個前提，當然我目前是個門外漢。）所以，大家都堅定基於規則的自然語言處理。其中的基於規則的方法，分為句法分析和語義分析，後者比起前者要麻煩的多。

對於句法分析來說，也即為對每一句話都要生成一棵語法分析樹（當句子越長越複雜時，該樹就越大越複雜）。科學家們原本以為隨著對這種自然語言語法的概括越來越全面，同時計算機能力的提高，自然語言處理可以逐漸用這種方法來解決。但是這裡有幾個問題：要覆蓋這些句子，需要大量的文法規則；而且這些規則之間也可能會出現矛盾；語言是上下文相關的，所以單純靠這些規則，計算機也很難能理解這些句子。

而對於語義分析則有更大的麻煩。因為語言當中詞的含義多半由上下文來決定，甚至有的靠的是「常識」，所以靠規則很難解決此類問題。

在2023年後統計語言學的出現使得自然語言處理重獲新生，並取得了今天的成就。在從20世紀80年代末至今的25年裡，隨著計算能力的提高和資料量的不斷增加，過去看似不可能通過統計模型完成的任務，漸漸的都變成了可能，包括很複雜的句法分析。還有，原來乙個新的技術或者思想要完全淘汰掉原來的，還需要等原來的這批科學家們退休了才可以。等這批人「退休」（有的不是年齡老，而是「站錯了隊」，所以是在領域上退休，而不是真正的退休）之後，科學就會以更快的速度發展。

原創《數學之美》讀書筆記第2章

原創《數學之美》讀書筆記第3章

《數學之美》讀書筆記（二）第6章第10章

《數學之美》讀書筆記

原創 《數學之美》讀書筆記 第2章

原創 《數學之美》讀書筆記 第3章

《數學之美》讀書筆記（二） 第6章 第10章

《數學之美》讀書筆記

相關推薦

原創《數學之美》讀書筆記第2章

原創《數學之美》讀書筆記第3章

《數學之美》讀書筆記（二）第6章第10章