Web資訊抽取技術研究的發展歷程

2021-04-13 13:13:31 字數 1042 閱讀 5222

web資訊抽取(web information extraction :wie)的前身是文字理解,最早開始於 20世紀60年代中期,主要是從自然語言文字中獲取結構化資訊的研究,這被看作是資訊抽取技術的初始研究。

目前,除了強烈的應用需求外,正在推動資訊抽取研究進一步發展的動力主要來自美國國家標準技術研究所(nist)組織的自動內容抽取(ace, automatic content extraction)評測會議。這項評測從2023年7月開始醞釀,2023年12月正式開始啟動,從2023年到2023年已經舉辦過好幾次評測。這 項評測旨在開發自動內容抽取技術以支援對三種不同**(普通文字、由自動語音識別asr得到的文字、由光學字元識別ocr得到的文字)的語言文字的自動處 理,研究的主要內容是自動抽取新聞語料中出現的實體、關係、事件等內容,即對新聞語料中實體、關係、事件的識別與描述。與muc相比,目前的ace 評測不針對某個具體的領域或場景,採用基於漏報(標準答案中有而系統輸出中沒有)和誤報(標準答案中沒有而系統輸出中有)為基礎的一套評價體系,還對系統 跨文件處理(cross-document processing)能力進行評測。這一新的評測會議將把資訊抽取技術研究引向新的高度。

國內對中文資訊提取系統的研究起步較晚,還集中在命名實體識別方面,遵照muc規範的完整的中文資訊提取系統目前還處於探索階段。intel中國研究中心 在acl -2000上演示了他們開發的乙個抽取中文命名實體以及實體間關係的系統。在muc-6 和muc-7 上,增加了中文系統的評測專案,國立台灣大學(national taiwan university)和新加坡肯特崗數字實驗室參加了muc-7中文命名實體識別任務的評測,測試了中文命名實體(人名、地名、時間、事件等名詞性短 語)的識別,取得了與英文命名實體識別系統相近的效能。當然這只是對中文資訊提取作了比較初步的工作,並不能真正進行中文資訊提取。另外,北京大學計算語 言所對中文資訊提取也作了比較早的和比較系統的**,承擔了兩個有關中文資訊提取專案的工作,即自然科學**專案「中文資訊提取技術研究」和ibm——北 大創新研究院專案「中文資訊提取系統的設計與開發」。其目標是研究中文資訊提取中的一些基礎性和關鍵性的問題,為開發實用的資訊提取技術提供理論指導,並 具體**資訊提取系統設計的各個環節.

資訊分類編碼技術研究及應用

隨著資訊化在企業中的進一步推廣應用,資訊分類編碼技術作為基礎支援技術,在企業資訊化技術中占有越來越重要的地位。國家經貿委2001年對我國企業資訊化調查中提出 企業資訊化中資訊編碼是個普遍存在的問題 資訊分類編碼技術在企業中能否成功應用直接關係到企業資訊化的成敗。企業資訊化的諸系統的資訊管理以 為主線...

清華大學資訊科技研究院web與軟體技術研究中心

web與軟體技術研究中心 簡稱 web 與軟體中心 成立於 2003 年 是清華大學資訊科技研究院 簡稱 信研院 下屬的乙個研究機構。本中心積極圍繞國家資訊化建設和資訊產業發展的戰略,以計算機及企業資訊化理論為依託,開展面向服務 面向應用 面向產業的軟體研究和開發。特別是聚焦於三 d 的研發工作,即...

C OSII中的時鐘中斷技術研究

1 系統中斷與時鐘節拍 1.1 系統中斷 中斷是一種硬體機制,用於通知cpu有個非同步事件發生了。中斷一旦被系統識別,cpu則儲存部分 或全部 現場 context 即部分 或全部 暫存器的值,跳轉到專門的子程式,稱為中斷服務子程式 isr 中斷服務子程式做事件處理,處理完成後執行任務排程,程式回到...