WebIE當前研究存在的問題和未來的研究趨勢

2021-04-13 13:13:31 字數 1106 閱讀 5505

web資訊抽取技術目前已基本成熟,但知識的自動獲取實際上仍沒有達到完全自動,大部分資訊抽取系統只是把原先由領域專家完成的任務轉化為使用者的任務。在 構建通用的知識學習器方面,進行了有益的**,但效果不是很理想,當前基於web的ie系統只能處理特定型別的文字和只能獲得部分的精確度,仍面臨很多問 題。

(1) 當前影響web資訊抽取技術廣泛應用的兩個最主要的因素是:系統效能和系統可移植能力,如何解決好這兩方面的問題將決定web資訊抽取系統的發展水平,人 工智慧型研究者一直致力於建造能把握整篇文件的精確內容的系統。這些系統通常只在很窄的知識領域範圍內執行良好,向其他新領域移植的效能卻很差 [41]。

(2) web資訊抽取系統的抽取效率和抽取的準確性有待進一步提高。

(3) 目前英文系統在命名實體和實體關係識別方面已達到或接近實用的水平。但在真正的資訊提取方面則還有許多問題需要探索。可以看到這些問題中的大部分都涉及到了自然語言處理中的核心難題。

(4)定義包含從文字中抽取的重要資訊的模版是乙個十分困難和複雜的問題,特定流派的文字(如醫學結論、科學**、政策報告等)具有特定的詞彙、語法和篇章結構。系統分詞與詞性標註過程中存在歧義問題,語義特徵標註、篇章句法分析等也是乙個需要進一步研究的課題。

(5)系統在適應不同子語言特徵、 不同類別的文字方面有待提高。系統應能處理特定語言結構和多語種文字,基於web 的文件可能與新聞報紙之類的文字有著強烈的差別,必須能適應不同的情況[20]。

(6)與國外的web資訊抽取系統相比,中文資訊抽取系統的研究還有很大差距[8]。

今後的研究

針對當前研究存在的問題,今後如何將提高web資訊抽取系統抽取範圍的全面性;如何簡化學習過程,提高自動化程度;如何提高系統對新網頁的適應性,增強系 統對web資訊抽取的適應性;如何加強對已有抽取規則的歸納,提高系統的抽取效率和準確性;web上的資訊和網頁結構處於不斷的更新和變化中,因此應如何 感知web資訊和結構的更新變化;目前的web資訊抽取工具一般都是通過學習之後可以對結構相似的一類網頁進行抽取,因此應如何判斷結構相似;如何提高系 統的效能、可移植性的設計以及適應多語種的能力;在中文web資訊抽取系統的研究方面,應如何借鑑國外比較成熟的系統構建技術,並結合漢語的特殊性,充分 利用一些基礎的漢語研究成果來構建高效、精確的中文web資訊抽取系統;這些問題都是今後web資訊抽取技術研究的熱點問題。 

當前工作流管理中存在的問題

當前工作流管理中存在的問題 工作流管理作為乙個新興的研究領域,自然還存在很多問題有待於進一步研究解決,我們以荷蘭海關 dutch customs department sagitta 2000 專案中工作流管理系統的選型 為背景,來說明當前工作流管理系統的不足。sagitta 2000 專案是開發乙...

dgi資料治理 當前資料治理存在哪些問題和困難?

dgi data governance institute,資料治理研究所 認為,企業不僅需要管理資料的系統,更需要乙個完整的規則系統以及規章流程。資料治理基本上涵蓋了企業所有與資料有關的內容,因此在整個企業範圍內,包括工作流程 涉及人員和使用的技術等等,都需要經過仔細考量,以保證資料的可用性 一致...

當前DAO平台存在的一些現實問題

dao平台是指任意使用者都能建立dao並對dao進行管理的平台,比如aragon,而不是乙個具體的dao本身。dao目前來講概念很火,但落地場景很少,基本上就是投票提案。怎麼說呢,目前整個區塊鏈的落地場景和需求都很少,需求較多的反而是半中心化的聯盟鏈和私有鏈 比如說超級賬本 所以說以太坊上的某類應用...