潛在語義分析對認知科學的啟示

2021-08-30 01:10:40 字數 4451 閱讀 1162

潛在語義分析技術對認知科學以及虛擬實境系統的設計也具有啟示:

首先,由於lsa

可以用數學方法實現對文字的理解,所以可採用lsa

分析人對文字的理解。

認知領域中,文字理解研究的主要目標是發現影響讀者由文字材料提取資訊和保留資訊的能力的諸多因素。通常採用讓被試者閱讀材料,然後讓他們回答問題或寫一篇進行總結的方式,測試被試由文字中獲取了什麼樣的資訊。對文字理解理論的研究也可以說是讀者表述文字理解的認知模式的研究(kintshch

,1988)。

在這樣的模式下,用一套被稱為命題的語義成分代表由文字和被試的總結中所得到的語義資訊,同時,對一篇文字作命題分析也能提煉出一套文字中所包含資訊的語義基礎。同理對被試回答命題的分析,將得到一套被試對文字記憶表述的語義基礎。通過對文字和被試總結中出現的資訊,在語義水平上的比較則不僅僅侷限於詞的選擇等表面的特徵。

而lsa

的基礎恰是建立在詞的語義與文字語義內容的匹配上的,並為此建立語義空間。因此lsa

方法能很好地適合於對必須用文字材料來評估學習成績的心理學和教育學等領域的研究與分析。即通過對被試閱讀過的文字執行一種自動分析,推出乙個語義空間,利用這個語義空間,按照以命題分析同樣的方式來進行文字資訊的匹配。

lsa

方法還可用來研究文字的連貫性與對文字的理解力。lsa

能夠測量文字相鏈結的部分中語義重疊的數量,故能測量文字的連貫性。應用lsa

對文字做連貫性測試,結果顯示,隨著文字連貫性的增加,lsa

測試出的連貫性也隨著增高。由於文字連貫性的命題重疊測量已經被建立成為一種有效的測量文字理解力的方法。對於文字命題重疊的計算既可以在區域性也可以在整體水平上執行。因此,文字的命題分析能夠顯示什麼地方文字的連貫性被打破,並且將影響閱讀者的記憶力。對這些地方的破損加以修復,就能夠改進人的整體的理解力。

從技術角度看,用lsa

連貫性測試還可以進行檔案分割。檔案分割的目標是識別文字的不同部位是否覆蓋不同的主題,並決定在乙個文字中什麼地方主題發生了變換。一般來說,在文字中連貫性很低的區域傾向於為主題切換的地方。

通過識別連貫性的破裂,人們可以把文字劃分成不連續的部分。便可以把大塊頭文字**為更好管理的小單位而具有許多應用,尤其對網際網路資訊的處理將產生重大影響。

總之,當閱讀者閱讀多篇文字時,他們一定整合橫跨文字的資訊,並把它們與以前所具有的知識相結合。lsa

能捕捉這些整合的資訊,使得lsa

統計近似產生的語義相關與讀者學習產生的知識結構相合。因此,lsa

其次,lsa

能夠模擬學習獲取知識,為人類認知問題的研究提供了乙個新的途徑。

認知的最深、最持久的秘密之一是人們在得到很少資訊的基礎上,如何獲取大量的知識,即歸納問題。假設某些領域的知識含有廣泛的、大量的微弱聯絡,如果適當地暴露它們則可以通過推測大大地加強學習效果。關鍵在於發現通過某種正確操作可以獲得的歸納機制以及各種客體和事件之間的類似性。因而便可以在區域性得到密集的資訊與人們經過大量閱歷之後得到的知識的差距之間架起一座橋梁。

landauer

和dumais

教授利用美國大百科全書的30473

篇文章中出現的460

萬個詞彙,創造了乙個300

維的語義空間。運用lsa

方法測試托福(toefl)

考試的同義詞部分。這部分有4

個選擇題,回答每乙個問題的正確概率為25%。

lsa選擇的正確為64.4%

,基本相當於非英語國家的大學生們考出的6.45%

的平均成績,達到了美國大學對非英語國家大學生入學英語水平的要求。lsa

方法取得的成功顯示了當給出了大量文字時,計算機能夠像人類一樣,獲得詞彙意義相類似的知識並達到相當深度。

lsa能夠學習並獲取知識主要依賴語義空間維數的選擇。lsa

語意空間的維數和答案選擇的正確性之間存在著強有力的非單調相關。當lsa

選擇太多的維數時,獲得的知識是相當貧乏的,當在300

維左右操作時,結果相當好。而當選擇大大低於100

維時,獲得的知識再次變得非常貧乏。由此可見,語義空間維數的選擇與獲取知識結果的匹配狀態,似乎某種程度上反映了人類學習知識時,通過歸納的改進可以大大地改進知識的獲取與描述。

應該說lsa

由文字中學習到了大量的詞彙意義。lsa

沒有利用任何先前語言和認知的類似知識,它獨特地建立了一種一般的學習方法,對大量的文字通過選取正確的空間維數(

例如300

維)達到強有力的歸納效應,學習到了詞義的類似性。對照人類,人們在學習語言過程中,語言中也存在著足夠的資訊,它們含有廣泛的大量的微弱聯絡,當人們暴露在這些資訊面前,獲取了知識。因此可以說,lsa

對人類知識歸納問題提供了一種解決途徑。

以這種思路進行的研究有landuaer

和dumais

教授等,通過文字理解、托福測驗、學校兒童對詞彙的學習等等方面的試驗,應用lsa

與人類行為相對照,得出了lsa

可以獲取、歸納和表述知識的結論。以graesesr

教授為首的美國孟菲斯大學的智慧型系統研究所於1997

年開始研製並開發autotutor

系統,該系統可以對學生用自然語言做出的反饋給以響應(graesesr

,2001)

。試驗表明aut0tuotr

在提高學生的計算機素養及抽象思維與動手操作能力方面有顯著的優勢(graesser

,2003)。

第三認知領域的諸多方面也可借助lsa

進行研究,對某些現象提供新的解釋、說明和設想。

科羅拉多大學認知科學研究所的darrell laham

利用lsa

方法進行概念分類研究。研究顯示,分類可以自我組織,不依靠任何人為**,僅依靠語言在語料庫中的使用方式,通過動態歸納過程發生。概念的含義不是被包裝在客體的表述中,而是以語義空間為背景,選擇客體之間的相互關係出現的。實際實驗顯示,對自然分類,lsa

的判斷與人類判斷具有高度的相關性。

lsa方法除了處理詞彙意義的類似性之外還提示了理解許多語言屬性的一些新途徑。例如,詞的意義具有流動性,即某個人使用某詞與另一人使用該詞在意義上稍有差別,或隨著時間的流逝人們對某詞的理解發生了變化,為了從語言功能或歷史上測量個體或群體理解詞彙意義上的變化,lsa

提供了一種有潛力的技術。lsa

對聯想問題、場景和語義記憶模擬、明示和暗示記憶模擬、專家知識等提供了研究的可能性。總之lsa

獨特地建立了一種一般的學習方法,為理解、解釋學習的動力學模式提供了一條吸引人的途徑。

以資訊加工觀點研究人的認知活動是把人的認知活動看成乙個資訊傳送系統,把人們對客觀外界的知覺、記憶、思維等一系列認知過程看成資訊的傳播接受和加工的過程,並對人的思維活動作出定量分析,建立資訊加工模式是認知科學的核心任務。lsa

就是乙個這樣的資訊加工模式。

lsa模式表面上是一種純數學的分析技術,實際上卻具有更廣闊的認知意義。目前,還沒有其它的知識獲取和知識表達技術不依靠人類的輸入知識,像人類一樣憑著經驗思維就能獲取知識的計算模式存在,故lsa

在文字理解、學習、思維和獲取知識方面經驗上的部分成功似乎預示了機器智慧型的又乙個發展趨勢。

人腦的認知過程是通過神經元的活動進行的,然而人類至今對神經元和大腦對資訊處理的生理機制了解很少。因此lsa

也為認知過程的研究提供一條可行的途經。如研究人腦的認知過程,可用心理學的概念解釋lsa

模式,並顯示模式的某些特徵。lsa

的輸入構成的矩陣,可認為行代表單一的事件,列代表事件發生的背景。最後的輸出是一種描述,由描述中人們可以計算,測量事件之間、背景之間或事件與背景之間的類似程度,就如同詞彙對詞彙、段落對段落、詞彙對段落之間的類似程度一樣。利用lsa

的計算過程實際上是把區域性資訊組合並濃縮成為一種普遍的描述,在這個過程中,lsa

捕捉到了具有區域性資訊的所有事件之間多變的相關的偶然性。

還可以進一步把lsa

視作神經網路,lsa

是一種單一的,但卻是相當大的三層神經網路。每乙個事件(

或詞)構成了第一層神經元,每乙個曾經發生過事件的場景構成了第三層神經元,幾百個第二層的神經元承擔完成連線第一層與第二層,第二層與第三層神經元的任務。每一種型別的事件,單一場景地描述起一種橫跨兩層神經節的活化作用。這種神經網路可以創造出人造的場景,反過來操作場景可以產生能適應變化強度的事件來表述他們本身。奇異分解可理解為把歸納問題的機理具體化,即它可以方便地變換維數,並應用於乙個學習者多年的經歷才能遇到的大量資料上,在某些方面與人類大腦儲存、再處理資訊方面具有大約相近的效應。

資訊科學和資訊處理技術的發展為用資訊方法研究思維過程提供了理論基礎。lsa

恰恰為思維過程的研究提供一條可行的途經,這對於人類智慧型的開發,認知過程規律的揭示有巨大的意義。概率潛在語義分析具有優於潛在語義分析的諸多特點,是在潛在語義分析基礎上的進一步改進。虛擬導師系統的設計主要採用概率潛在語義分析技術。

潛在語義分析LSA

lsa和傳統向量空間模型 vector space model 一樣使用向量來表示詞 terms 和文件 documents 並通過向量間的關係 如夾角 來判斷詞及文件間的關係 不同的是,lsa 將詞和文件對映到潛在語義空間,從而去除了原始向量空間中的一些 噪音 提高了資訊檢索的精確度。1 一詞多義...

潛在語義分析 LSA

潛在語義分析 latent semantic analysis,lsa 是一種無監督學習方法,主要用於文字的話題分析,其特點是通過矩陣分解發現文字與單詞之間的基於話題的語義關係。潛在語義分析由deerwester 1990年提出,最初應用於文字資訊檢索,所以也被稱為潛在語義索引 latent sem...

讀《認知科學導論》(薩伽德) 總結

1.作者的寫作思路 本書是建立在對心智的理解採用表徵與計算的方式。對心智表徵 計算的理解方式是與計算機的本質相聯絡。計算機本質上是乙個符號系統,符號系統包含兩個部分,乙個是符號,另乙個是建立在符號上的操作。對心智採用表徵 計算的方式理解,很容易與計算機建立起模擬關係。同時人們在探索人工智慧領域採用表...