)對統計方法的思考

2021-06-13 01:04:11 字數 1259 閱讀 4122

2010-05-19 19:58:08

|  分類:

研究筆記|字型大小

訂閱

原文名為:

homework? review ***** for science

今天作業的一部分,是以science的reviewer的身份去review一篇文章,並攥寫review報告。

這篇文章是已經在2023年發表於science上,標題非常有趣:

statistical learning by 8-month-old infants

大家可以非常容易在google上找到這篇文章的全文。

文章指出乙個乙個很值得思考的心理學實驗結果:乙個很小的嬰兒,只需要聽上兩分鐘的連續語音,就能形成對以後聽到的連續語音進行有效分詞的能力。

這篇文章闡述的是在語言學習方面的結果,而事實上,在所有智慧型領域,我們都可以看到類似的觀察。比如在vision,人們都沒有經過系統的可控的物體識別訓練,但是卻非常容易獲得在複雜的世界上對物件進行迅速的分割,識別,以及獲取其它方面資訊的能力,而目前computervision的能力在最簡單的可控實驗中依舊舉步維艱。

人類只需要很少的訓練的情況下能夠迅速獲得非常靈活有效的「模型」去應對充滿變化和干擾的實際輸入,而計算機學習演算法通過在大量樣本訓練,也很難接近哪怕是嬰兒的水平呢?人類的學習機制和目前人工智慧研究所採用的方式究竟有什麼不同?

現在統計學習領域百花齊放,但是,大部分的方法,無論formulation有多大的數學上的差別,基本上都是讓乙個具有某種結構的model按照某種準則去"fit"訓練資料,通常還加上某種複雜性的約束。不過,很難想像人類是使用類似的方法從現實中學習的。我們每天感受到的是乙個不斷變化,各種要素充分融合的世界,沒有分離的「訓練資料」去學。我們的大腦能夠理解非常複雜的東西,但是我們所接觸的「訓練集」按照經典統計學系理論的觀點是無法支援這種複雜性的。雖然,我們經常會犯被觀察所誤導的錯誤,但是,相比於機器學習演算法,我們overfitting的機會和程度遠小得多。

我相信,我們的學習過程遠比目前所有的機器學習演算法聰明得多,絕不僅僅是observed->fitting這樣的統計形式。ai的主要領域的研究現在過分依賴於統計建模,可是統計有它固有的瓶頸。早在vapnik他們建立統計學習基礎的時代,已經明確告訴了大家,統計學習受到複雜性的根本制約。因此,統計學習本身並沒有足夠能力到達人工智慧的目標。相對於人類真正的智慧型來說,統計所能產生的智慧型只能認為是一種非常初級的形式。

從rule-based的專家系統到神經網路,再到統計學習,ai幾十年內經歷了幾次大規模方**更新的浪潮,但是是不是離真正的智慧型越來越近了呢?我們究竟是不是走在乙個正確的方向上?

對無效思考的思考

昨天思考了乙個無聊的問題,並且打算用它來練習markdown文件編寫。但是聊著聊著發現場子鋪的太大,無法收場不說,連自己都感覺很無聊。所以想到了無效思考這個話題。在思考了乙個沒有結論的無聊的話題之後,我感覺生活中的八卦新聞 十萬個為什麼這些也是無效思考。雖然我又想到乙個無聊的話題,去談談是否應該讓小...

linux shell對行數進行統計的方法

本文參考了 上的例子 1.統計乙個檔案的行數可以用以下命令 grep c txt 或grep n txt wc l ps 使用grep n txt 可以對 txt 的內容顯示行號,比如grep n etc passwd 輸出結果 1 root x 0 0 root root bin bash 2 d...

陣列中逆序對統計方法

首先闡述一下逆序對的概念。假設有乙個陣列為array 0.n 其中有元素a i a j 如果 當ia j 那麼我們就稱 a i a j 為乙個逆序對。那麼統計乙個陣列中的逆序對,有什麼作用呢。逆序對可以反映插入排序的效率問題,如果逆序對數量多,那麼插入排序的效率就低,反之亦然。那麼如何快速的找到逆序...