原創 《數學之美》讀書筆記 第2章

2021-10-05 06:16:27 字數 868 閱讀 4612

前一章節的最後,作者提到了乙個語言學研究方法的問題:究竟是語言對,還是語法對。也即為,究竟是從真實的語句文字(成為語料)出發,還是從規則出發。最後自然語言處理的成就宣布了前者的勝利。也就是,從規則到統計。

本章節主要講的是自然語言處理的發展史,其中分為兩個階段,前一階段是科學家們走彎路的時候,也即為用電腦模擬人腦。而後一階段,科學家們開始利用基於數學模型和統計的方法,這才使得自然語言處理開始取得實質性的進展。

在2023年,當時的科學家們認為,要讓電腦來模擬人腦,學會處理語言,前提是得讓電腦理解人類的語言。(其實一直以來,我也一直以為自然語言處理是基於這樣的乙個前提,當然我目前是個門外漢。)所以,大家都堅定基於規則的自然語言處理。其中的基於規則的方法,分為句法分析和語義分析,後者比起前者要麻煩的多。

對於句法分析來說,也即為對每一句話都要生成一棵語法分析樹(當句子越長越複雜時,該樹就越大越複雜)。科學家們原本以為隨著對這種自然語言語法的概括越來越全面,同時計算機能力的提高,自然語言處理可以逐漸用這種方法來解決。但是這裡有幾個問題:要覆蓋這些句子,需要大量的文法規則;而且這些規則之間也可能會出現矛盾;語言是上下文相關的,所以單純靠這些規則,計算機也很難能理解這些句子。

而對於語義分析則有更大的麻煩。因為語言當中詞的含義多半由上下文來決定,甚至有的靠的是「常識」,所以靠規則很難解決此類問題。

在2023年後統計語言學的出現使得自然語言處理重獲新生,並取得了今天的成就。在從20世紀80年代末至今的25年裡,隨著計算能力的提高和資料量的不斷增加,過去看似不可能通過統計模型完成的任務,漸漸的都變成了可能,包括很複雜的句法分析。還有,原來乙個新的技術或者思想要完全淘汰掉原來的,還需要等原來的這批科學家們退休了才可以。等這批人「退休」(有的不是年齡老,而是「站錯了隊」,所以是在領域上退休,而不是真正的退休)之後,科學就會以更快的速度發展。

原創 《數學之美》讀書筆記 第3章

假設有乙個句子 明天校長威廉斯打算宣布捐助1000萬元給落後鄉村建立一所希望小學 改一下詞的順序,變成 校長威廉斯明天捐助打算宣布1000萬元給鄉村建立落後小學一所希望 再改一下順序,變成 威廉斯校宣布長捐助明鄉村10天萬元落後10希望一所小建立學 第一句話,能明白句子的含義,第二句話,大概讀下來能...

《數學之美》讀書筆記(二) 第6章 第10章

第六章第七章 賈里尼克和現代語言處理 1.今天數字通訊中應用最廣的兩個演算法 bcjr演算法和維特比演算法。第八章 簡單之美 布林代數和搜尋引擎第十章 圖論和網路爬蟲頁面分析和url的提取 網際網路早期,url都是以文字的形式防在網頁中,前後都有明顯的標識,很容易提取出來。但是現在很多網頁是用一種指...

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...