人工智慧的崛起 智商測試得分超過四歲兒童

2021-09-24 08:36:35 字數 3457 閱讀 9650

研究人員最近對乙個名叫conceptnet的人工智慧系統進行了測評。在一項為檢測兒童智商而設計的測中,conceptnet的得分超過了一名智商正常的四歲兒童。 該測試共包含五項與詞語推理和詞彙有關的測驗,conceptnet的總得分為69分,與之進行對比的學齡前兒童得分則為50分。並且專家認為,該系統的智慧型程度還會進一步加強。

在測試過程中,試題會通過語言處理工具轉換成conceptnet 4能夠理解的語言,如 我們為什麼要握手? 、 我們為什麼要在夏天戴太陽鏡? 和 為什麼將刀子放入嘴中是不好的行為? 等等。

如果你本來就擔心自己的工作有一天會被機械人取而代之,那麼下面這則來自麻省理工學院的最新訊息可能會讓你更加惶恐。

研究人員最近對乙個名叫conceptnet的人工智慧系統進行了測評。在一項為檢測兒童智商而設計的測試中,conceptnet的得分超過了一名智商正常的四歲兒童。

該測試共包含五項與詞語推理和詞彙有關的測驗,conceptnet的總得分為69分,與之進行對比的學齡前兒童得分則為50分。並且專家認為,該系統的智慧型程度還會進一步加強。

conceptnet是一項由麻省理工學院常識計算計畫團隊(mit common sense computing initiative)管理的開源專案。該團隊研發的conceptnet 4運用了所謂的 關係 這一概念。例如,當讓該系統解釋什麼是 小鹿 時,它會明白 小鹿是一種鹿 ,而不是 鹿是一種小鹿 。也就是說,它能夠理解這種動物的概念,以及 小鹿 和 鹿 這兩個詞彙和概念之間的關係。同時,該系統還可以使用所謂的 對立標記 表示負相關關係,比如 企鵝不會飛 等。

研究人員讓conceptnet 4參與了 韋克斯勒學齡前兒童智力量表 測試(wppsi-iii),並將研究結果發表在**《measuring an artificial intelligence system's performance on a verbal iq test for young children》上。wppsi-iii測試包含14項測驗專案,以及乙份針對操作智商和言語智商的完整評估表。

在對單項測試計分時,研究人員先使用每道題目得分最高的答案計分,然後再使用每道題目得分最高的前五個答案中最好的答案計分。他們將前者稱為 嚴格計分 ,後者稱為 放鬆計分 。圖中左側為conceptnet得分,右側為受測兒童得分。

操作智商測驗通常會要求受測人完成繪畫、解謎、記憶等任務。言語智商測驗則會考察兒童的詞語推理、詞彙及理解能力。每種智商得分的平均分都為100分。本次研究則主要針對言語智商進行測試。

在測試過程中,試題會通過語言處理工具轉換成conceptnet 4能夠理解的語言,如 我們為什麼要握手? 、 我們為什麼要在夏天戴太陽鏡? 和 為什麼將刀子放入嘴中是不好的行為? 等等。

智搜(giiso)公司成立於2023年是國內領先的「人工智慧+資訊」領域技術服務商,在大資料探勘、智慧型語義、知識圖譜等領域都擁有國內頂尖技術。同時giiso旗下研發產品包括編輯機械人、寫作機械人等人工智慧產品!憑藉雄厚的技術實力,公司成立之初,就獲得了天使輪投資,並在2023年8月獲得了金沙江創投500萬美元pre-a輪投資。 

該研究由芝加哥大學的斯特蘭?奧爾森(stellan ohlsson)帶領。在對單項測試計分時,研究人員先使用每道題目得分最高的答案計分,然後再使用每道題目得分最高的前五個答案中最好的答案計分。他們將前者稱為 嚴格計分 ,後者稱為 放鬆計分 。

在 資訊 測試中,conceptnet得到了20分,而同時參加測試的四歲兒童通過轉換後的得分為10分。這名兒童在詞語推理和理解上得分更高,均為7分,而conceptnet在這兩項上的得分分別為2和3分。此外,conceptnet表現出了更豐富的詞彙量,詞彙得分為20分,而兒童得分為13分。

conceptnet系統的得分與四歲兒童相仿,但低於五至七歲兒童的平均得分, 研究人員解釋道, 該系統在每個單項中得分差異很大,說明還有改進的空間。在所有測試中, 理解 是最關乎人類常識的測試專案。得分差異大、常識方面表現一般,這說明conceptnet尚不具有四歲兒童的語言能力。但本次研究說明,兒童智商測試可以為人工智慧系統的評估和比較提供一種客觀的度量手段。

conceptnet是一項由麻省理工學院常識計算計畫團隊(mit common sense computing initiative)管理的開源專案。該團隊研發的conceptnet 4運用了所謂的 關係 這一概念。例如,當讓該系統解釋什麼是 小鹿 時,它會明白 小鹿是一種鹿 ,而不是 鹿是一種小鹿 。也就是說,它能夠理解這種動物的概念,以及 小鹿 和 鹿 這兩個詞彙和概念之間的關係。

此外,許多由conceptnet給出的錯誤答案和兒童給出的錯誤答案不僅相去甚遠,而且違反常識。

例如,在關於 獅子 的詞語推理測驗中,該ai系統和首測兒童被給予三條線索 雄性長著鬃毛 , 該動物生活在非洲 ,以及 它是一種體型很大的棕黃色貓科動物 。

由conceptnet給出的排名前五的答案按順序排列為:狗,農場,生物,家庭,貓。

研究團隊解釋道, 生物 和 貓 尚且還能與 獅子 沾邊,但其它的答案就明顯有悖於常識了。

按照常識,受測者應該至少能將答案限制在動物的範圍內,同時能做出簡單的推理: 既然線索說它是貓科動物,那只有貓科動物能夠被列入考慮範圍。

該**被發表在期刊《arxiv》上,共同作者包括羅伯特?斯隆(robert sloan)、捷爾吉?圖蘭(gy?rgy tur n)和阿隆?歐拉斯基(aaron urasky)。

conceptnet系統的得分與四歲兒童相仿,但低於五至七歲兒童的平均得分。這說明該系統並不具備 四歲兒童 的語言能力,但可以為評估類似系統提供指導方法。

測試方法

研究人員讓conceptnet 4參與了 韋克斯勒學齡前兒童智力量表 測試(wppsi-iii),並將研究結果發表在**《measuring an artificial intelligence system's performance on a verbal iq test for young children》上。wppsi-iii測試包含14項測驗專案,以及乙份針對操作智商和言語智商的完整評估表。

操作智商測驗通常會要求受測人完成繪畫、解謎、記憶等任務。言語智商測驗則會考察兒童的詞語推理、詞彙及理解能力。每種智商得分的平均分都為100分。本次研究則主要針對言語智商進行測試。

在測試過程中,試題會通過語言處理工具轉換成conceptnet 4能夠理解的語言,如 我們為什麼要握手? 、 我們為什麼要在夏天戴太陽鏡? 和 為什麼將刀子放入嘴中是不好的行為? 等等。

該研究由芝加哥大學的斯特蘭?奧爾森(stellan ohlsson)帶領。在對單項測試計分時,研究人員先使用每道題目得分最高的答案計分,然後再使用每道題目得分最高的前五個答案中最好的答案計分。他們將前者稱為 嚴格計分 ,後者稱為 放鬆計分 。

什麼是conceptnet

conceptnet是一項由麻省理工學院常識計算計畫團隊(mit common sense computing initiative)管理的開源專案。該團隊研發的conceptnet 4運用了所謂的 關係 這一概念。

例如,當讓該系統解釋什麼是 小鹿 時,它會明白 小鹿是一種鹿 ,而不是 鹿是一種小鹿 。也就是說,它能夠理解這種動物的概念,以及 小鹿 和 鹿 這兩個詞彙和概念之間的關係。

同時,該系統還可以使用所謂的 對立標記 表示負相關關係,比如 企鵝不會飛 等。

人工智慧界專家 現在我們的機器智商還不及老鼠

人工智慧的傳統定義是,機器以通常我們認為屬於人類的方式,來執行任務和解決問題。有一些任務我們覺得很簡單 識別 中的物體 駕駛汽車 可是這些任務對於ai來說特別困難。機器可以在棋盤上超越人類,可是那些機器的程式從本質上來說是體力活,機器受到程式的限制。乙個30美元的裝置就能在棋類遊戲上超越我們,可是它...

大眾對人工智慧的誤解都有哪些(四)

現在人工智慧的發展是如火如荼的,認為人工智慧是給科技精英使用的,以及人工智慧只是解決億萬美元級的問題,其實這些想法都是錯誤的,人工智慧主要是服務大眾。其實大眾對於人工智慧的誤解還有很多,我們在這篇文章中接著給大家介紹一下這個問題。很多人認為,演算法比資料更重要,很多關於人工智慧的文獻以及報告都不約而...

聊一聊人們對人工智慧的誤解(四)

我們不止一次地說,人們對人工智慧片面或者不充分的了解使得人們對人工智慧存在一些誤解,其實這些想法都是正常的,不過當我們開始認真關注並學習人工智慧知識的時候就會逐漸消除對人工智慧的誤解。下面我們繼續給大家介紹一下人們對人工智慧的誤解。有人認為人工智慧將接手我們所有的工作,這是乙個十分恐怖的事情,其實人...