國內外知識庫

2021-09-26 07:06:16 字數 3136 閱讀 1900

1.wordnet:依賴專家知識,由人工標註,將英文單詞按照單詞的語義組成乙個大的概念網路。由同義詞集和描述同義詞集之間的關係構成。詞語被聚類為同義詞集,每個同義詞集表示乙個基本的詞彙語義概念,詞集之間的語義關係包括同義關係、反義關係、上位關係、下位關係、整體關係、部分關係、蘊含關係、因果關係、近似關係等。

2.cyc/opencyc:依賴專家知識,主要由人工構建,是常識知識圖譜。由大量實體和關係以及支援推理的常識規則構成。包含50萬實體,接近3萬個 關係以及500萬事實。opencyc是cyc的乙個子集,可免費使用,包含24萬實體,200萬事實。cyc中不僅包含了大量實體和關係,還包含用於推理的常識規則,並提供多種推理引擎,支援演繹推理和歸納推理,同時也提供擴充套件推理機制的模組。

3.conceptnet:常識知識圖譜,由大量概念以及描述它們之間關係的常識構成,比較側重詞與詞之間的關係,完全免費開放,支援多語言。

4.sider(side effect resource):醫學知識圖譜,主要包含了已經上市的藥物及其記錄在冊的***,這些資料可以為相關疾病的**提供依據。

5.imdb(internet movie database):電影知識圖譜,與2023年建立,截止012年,共收錄132383部作品資料以及4530159位人物資料。

6.musicbrainz:**知識圖譜。

7.yago:依賴wikipedia和wordnet,是百科知識圖譜。yago的實體關係資料都依賴人工嚴格定義的規則從wikipedia中自動抽取產生,包括實體之間的上下位(is-a)和實體屬性等關係。使用rdfs語言與owl語言描述。

9.dbpedia:wikipedia和專家知識,百科知識圖譜。主要從wikipedia中的結構化資料中抽取知識。英文版dbpedia描述了600萬個實體,其中460萬的實體包含摘要資訊,153萬實體具有地理位置資訊,160的實體具有描述資訊。另外,520萬個實體可以鏈結到本體上,包括150萬的任務,81萬的地點、49萬的作品、27.5萬的機構、30.1萬的物種和5000的疾病。總共包含95億事實三元組。

10.wikidata:freebase+群體智慧型,百科知識圖譜。目標是構建全球最大的免費知識庫。

11.nell:依賴機器學習技術構建。本身是一套語言學習系統,每天不間斷地執行兩項任務:閱讀和學習。閱讀任務是從文字中獲取知識,並新增到內部知識庫;學習任務是使用機器學習演算法獲取新知識,鞏固和擴充套件對知識的理解。nell可以抽取大量的事實(實體關係三元組),並標註所抽取的迭代輪數、時間及系統置信度,可以供人工進行校驗。

12.babelnet:多語言詞彙級的語義網路和本體。依賴wordnet+wikipedia。主要特點是將wikipedia鏈結到最常用的英語類義詞典wordnet上。它所定義的語義關係主要**於:wordnet中所定義的語義關係,總共36.4萬條關係;wikipedia中非特定的相關關係,例如,國籍、首都等,總共大約3.8億條關係。整合了wordnet在詞語關係上的優勢和wikipedia在多語言語料方面的優勢,構建成功了目前 最大規模的多語言詞典知識庫。

13.google knowledge graph:基於freebase

14.knowledge vault:基於機器學習。相較於google之前基於freebase的知識圖譜版本,knowledge vault不再採用眾包的方式進行圖譜構建,而是試圖通過演算法自動蒐集網上資訊,通過機器學習方法對已有的結構化資料進行整合和融合,將其變成可用知識。已收集了16億個事實,其中2.71億事實具有高置信度,其準確率在90%左右。

15.woe:基於機器學習自動構建

16.textrunner:致力於從文字中通過識別句子的謂語抽取所有的二元關係。抽取的範圍是開放域文字。

16.reverb:是textrunnner的公升級版。基於機器學習自動構建,致力於從文字中通過識別句子的謂語抽取所有的二元關係。

17.framenet:是乙個經典的基於框架表示的知識庫,針對詞彙級的概念進行框架的建模,它認為大部分詞彙的語義能夠通過語義框架的形式進行表示。它定義了1000多個不同的框架、10000多個詞法單元,總計標註了150000個例句。還定義了8種關係:繼承關係、視角關係、子框架關係、前置關係、使動關係、因果關係、使用關係和參考關係。

18.微軟concept graph:以概念層次體系為中心的知識圖譜。以概念定義和概念之間的isa關係為主。其主要通過從網際網路和網路日誌中挖掘來構建,可以用於短文本理解和語義消岐中。

1.hownet:典型的語言認知知識圖譜/常識知識庫,致力於描述認知世界中人們對詞語概念的理解,基於詞語義原,揭示詞語的最小語義單元的含義。以概念為中心,基於義原描述了概念與概念之間以及概念所具有的屬性之間的關係,每乙個概念可以又多種語言的詞彙進行描述。目前包含800多個義原,11000個詞語。

2.cn-dbpedia:由復旦大學知識工場實驗室研發並維護的大規模通用領域結構化百科,其前身是復旦gdm中文知識圖譜,是國內最早推出的也是目前最大規模的開放百科中文知識圖譜,涵蓋數千萬實體和數億級的關係。cn-dbpedia以通用百科知識沉澱為主線,以垂直縱深領域圖譜積累為支線,致力於為機器語義理解提供了豐富的背景知識,為實現機器語言認知提供必要支撐。cn-dbpedia已經從百科領域延伸至法律、工商、金融、文娛、科技、軍事、教育、醫療等十多個垂直領域,為各類行業智慧型化應用提供支撐性知識服務。

4.cnschema:乙個基於社群維護的開放知識圖譜schema標準。cnschema分類、資料型別的詞匯集包括了上千種概念、屬性和關係等常用概念定義,以支援知識圖譜資料的通用性、復用性和流動性。

5.中醫藥知識服務平台:整合了中醫藥領域的領域本體、術語資源(包括中醫藥學語言系統、中醫臨床術語集、中醫古籍語言系統等),以及證候、中藥、方劑等領域的知識庫,面向中醫專家提供知識檢索、知識問答、知識瀏覽等服務。

後續有發現其它知識圖譜會補充進來。

國內外監控服務

一 dot com 監控網 美國 1 監控原理 他的 監控,是以乙個模擬 請求,發到被監控站點,從返回的狀態碼 500,404,301,200等判斷站點是否可用,同時,可以檢查網頁上的特定文字內容。2 報表 有基本的狀態報表,顯示 是 down 還是ok 3 報 式 有 和簡訊等,不過基本針對美國。...

DB Audit國內外產品

其實這種入侵威脅存在已久,資料庫及其相關的安全問題一直是目前研究的弱項,其主要原因是對db操作協議的解析能力不足。目前比較常用的防護和措施是系統補救,如 嚴格設定系統許可權,dba在db安裝時不得使用admin使用者安裝 嚴格限制db擴充套件呼叫,用系統級的shell或wrape技術對db程序進行監...

國內外OJ簡介

主流的幾個像poj zoj hduoj hoj 哈工大 hust 華中科大 的幾個就不介紹了!下面介紹幾個很不錯但是很少人知道的oj!希望對讀者有些許幫助!以下的介紹順序不是按任何順序排列的,為看到想到才寫的!若有不妥之處,請讀者見諒!介紹 vijos是vivian snow是湖南師大附中的劉康 個...