Web資訊抽取技術研究的發展歷程

web資訊抽取（web information extraction ：wie)的前身是文字理解，最早開始於 20世紀60年代中期，主要是從自然語言文字中獲取結構化資訊的研究，這被看作是資訊抽取技術的初始研究。

目前，除了強烈的應用需求外，正在推動資訊抽取研究進一步發展的動力主要來自美國國家標準技術研究所（nist）組織的自動內容抽取（ace, automatic content extraction）評測會議。這項評測從2023年7月開始醞釀，2023年12月正式開始啟動，從2023年到2023年已經舉辦過好幾次評測。這項評測旨在開發自動內容抽取技術以支援對三種不同**（普通文字、由自動語音識別asr得到的文字、由光學字元識別ocr得到的文字）的語言文字的自動處理，研究的主要內容是自動抽取新聞語料中出現的實體、關係、事件等內容，即對新聞語料中實體、關係、事件的識別與描述。與muc相比，目前的ace 評測不針對某個具體的領域或場景，採用基於漏報（標準答案中有而系統輸出中沒有）和誤報（標準答案中沒有而系統輸出中有）為基礎的一套評價體系，還對系統跨文件處理（cross-document processing）能力進行評測。這一新的評測會議將把資訊抽取技術研究引向新的高度。

國內對中文資訊提取系統的研究起步較晚，還集中在命名實體識別方面，遵照muc規範的完整的中文資訊提取系統目前還處於探索階段。intel中國研究中心在acl -2000上演示了他們開發的乙個抽取中文命名實體以及實體間關係的系統。在muc-6 和muc-7 上,增加了中文系統的評測專案，國立台灣大學(national taiwan university)和新加坡肯特崗數字實驗室參加了muc-7中文命名實體識別任務的評測，測試了中文命名實體(人名、地名、時間、事件等名詞性短語)的識別，取得了與英文命名實體識別系統相近的效能。當然這只是對中文資訊提取作了比較初步的工作，並不能真正進行中文資訊提取。另外，北京大學計算語言所對中文資訊提取也作了比較早的和比較系統的**，承擔了兩個有關中文資訊提取專案的工作，即自然科學**專案「中文資訊提取技術研究」和ibm——北大創新研究院專案「中文資訊提取系統的設計與開發」。其目標是研究中文資訊提取中的一些基礎性和關鍵性的問題，為開發實用的資訊提取技術提供理論指導，並具體**資訊提取系統設計的各個環節.

Web資訊抽取技術研究的發展歷程

資訊分類編碼技術研究及應用

清華大學資訊科技研究院web與軟體技術研究中心

C OSII中的時鐘中斷技術研究

Web資訊抽取技術研究的發展歷程

資訊分類編碼技術研究及應用

清華大學資訊科技研究院web與軟體技術研究中心

C OSII中的時鐘中斷技術研究

相關推薦