一種基於多源資料的知識融合方法

2021-09-25 02:19:04 字數 448 閱讀 5311

摘要:本發明提出了一種基於多源資料的知識融合方法,在融合多個**的實體資料時,首先分別對每個資料來源的屬性進行規範化表示,其中包括了同義屬性對映和對屬性值的數值單位的統一轉換,這樣對屬性的規範化處理可以減少對後續實體比較造成的影響;然後基於實體名和實體屬性對實體進行分塊聚合,這樣僅將同一分塊內不同**的實體作為候選匹配實體對,避免了將兩個資料來源中所有的實體兩兩間比較,減少計算複雜度;最後將同一分塊內不同**的實體作為候選實體對,採用實體對齊演算法計算實體間的相似度,將匹配得到不同**中描述同一客觀世界的實體對,建立不同資料來源之間同一實體的等價鏈結,並進行實體屬性的合併,而對於乙個資料來源中獨有的實體,可以直接新增到知識庫中。

文章內容圖:

一種基於有序序列mapjoin的方法

在解決資料傾斜問題時,我們經常會採用一種方式 mapjoin,按照hive的實現,mapjoin是將其中一張表在map的過程中載入到記憶體中,但是如果在join的表中,最小的表的資料量也不小的情況下。我們該怎麼辦呢?其中一種解決的方式是 將兩張表需要實現排序 直接用hadoop解決 如下,兩張表都是...

一種基於mget的資料持久辦法

專案中需要一部分資料常駐於redis中,但是要求資料冷卻下來之後自動掉出記憶體,所以使用了如下的方法 材料php,mget,sql 的 in 首先方法體開頭迴圈傳入的陣列引數list,拼接成redis中的key,存放於新陣列userlist中,然後呼叫mget userlist 獲得結果settin...

一種實現多線並行揀選的方法

申請號 專利號 201110001500 本發明公開了一種實現多線並行揀選的方法,定義商品入庫策略,倉庫管理系統根據商品揀貨位就近原則查詢儲存位 定義商品出庫策略,倉庫管理系統實現商品出庫策略 任務排程系統對倉庫管理系統的出庫指令進行解析 組合和計算,根據商品的包裝單位,計算出揀貨虛擬托盤和揀貨虛擬...