資訊架構本質 6分 分布式資料探勘

2021-04-20 13:18:44 字數 2363 閱讀 3032

資訊架構師面臨的最有趣挑戰之一是,需要大型、專有、廣泛分布的資料儲存來處理特定研究問題的情況。了解挖掘分布式資料來源所涉及到的困難和已確定的用來處理這些問題的策略。
擁有分布式資料的組織所面臨的挑戰

資料儲存能力的**式增長和快速的網路通訊協議已使得組織能夠收集和儲存有關特定主題的超大資訊量。這些資料庫的大小可能達到 pb(1 x 10^15 位元組,或百萬兆位元組)以上——真正是令人瞠目結舌的資料量!這樣的大規模資訊儲存通常出現在研究應用領域(例如生物學、醫學、物理學和天文學)和**機構(例如美國國稅局、國防部和勞工部)中。它們也可能出現在商業中:例如,針對承保風險的保險計算。

**機構通常需要共享資料,但是不同的資料模式、介面和通訊技術使得這些資料的傳輸變得複雜化。對於敏感資訊來說尤其是如此,例如國防部或國土安全部使用的資訊。這些機構通常擁有遺留系統,那些系統是專有的,難於擴充套件,或以其他方式對外部系統是封閉的。儲存在這些系統中的資訊可能具有各種各樣的二進位制格式,其中某些格式不再具有適當的文件說明。使這種情況進一步複雜化的是,相關資料可能散布在多個系統之中,承載在不同的網路上,或者駐留在各種各樣的物理位置。

企業在收購另一家公司時,通常面臨著廣泛分布的資料問題。在這種情況下,兩家公司的系統很少會相容,從而在挖掘合併後的公司以獲取常見的利潤、損失、風險和成本問題的答案時,會產生大量難題。還可能會出現產品或服務**、配送、庫存管理、排程等方面的問題。整合這些不同資料來源所需的成本對新合併的公司來說是一項非常大的開支。

研究人員重點關注新知識的發現。為了獲取新知識,他們通常需要查詢並了解其他研究人員以前的發現。現在存在著包含有關整個人類基因組(以及其他物種的基因組)、天文觀察、粒子物理學、藥物發明和其他許多領域的資訊的大規模資料庫。人們面臨的挑戰不再是收集資訊,而是挖掘資料以回答特定研究問題——例如人類基因組比果蠅的基因組小如此多的矛盾。這些資料庫位於全世界的研究中心,每個資料庫具有自己的獨特儲存結構、訪問介面和通訊協議。希望與同事協作的研究人員必須能夠容易地在資料儲存之間來回傳遞資訊,並擁有高效的資料處理機制。

提供了這些資料儲存的大規模散布性質,挑戰在於組織如何發現、訪問和有效地使用分布式資料。

技能和能力

分布式資料探勘的問題有許多考慮因素,但是主要存在三個關注事項:發現資訊、安全地訪問資訊和足夠高效地傳輸資料以滿足處理需要。

資料探勘

分布式資料來源資料探勘的第乙個問題是發現。除非您能夠找到感興趣的資料,否則您能夠使用該資料來源的可能性是非常低的。發現機制各不相同,但是可將它們歸入兩個主要類別:靜態發現和動態發現。靜態發現 是手動確定資料來源系統,並預先配置處理系統以在其處理中使用所確定的源。此方法最常見但是最不靈活。如果較新的源變得可用,則無法保證合併新的源。可能的情況是,除非某人注意到了新的源,否則新的源將不會被使用。較靈活(但是更難於實現)的機制是動態發現適當的資料來源。動態發現 是統一描述、發現和整合(universal description discovery and integration,uddi)以及開放網格服務基礎結構(open grid service infrastructure,ogsi)背後的基本思想。資料來源將其功能和內容註冊到**註冊中心,在執行時可以查詢**註冊中心以尋找與您的處理需要相匹配的資料來源(例如,用於巡天搜尋的天文資料庫)。

在發現資料來源以後,下一步是獲得對該資訊的訪問許可權。獲得訪問許可權涉及到兩個安全問題中的第乙個問題(請參閱安全性部分):對許可使用者進行身份驗證。存在許多對遠端使用者進行身份驗證的協議,例如來自受信任**的證書或安全令牌。但是對於分布式資料庫,每個源可能使用單獨的機制。請考慮在獲得對多個資料儲存(其中所有資料儲存都需要不同的身份驗證技術)的訪問許可權時所存在的困難。這是分布式處理模型的乙個主要問題,並且是乙個重要的研究和標準化領域。

一旦獲得了對遠端資料來源的訪問許可權,下乙個問題就是資料傳輸。此步驟中的困難源自於相關資料來源的大小——通常在 tb 或 pb 的範圍內——使得通過遠端連線檢索資料變得不切實際。在此情況下,您有兩種可能的選擇:批量檢索資料以便在本地處理,或者在遠端平台上執行處理。第一種情況的示例是 seti_cnnew1@home 專案(請參閱參考資料),其中資料報被分發到志願者處理站點,在本地執行轉換,然後傳回**伺服器進行合併和分析。第二種情況的示例是執行與特定 dna、rna 或蛋白序列匹配的基因基本序列搜尋 (blast)。

最後,在完成處理之後,您需要合併源資訊或處理結果以便分析。正如前面指出的,可能需要從遠端資料來源檢索資料或在本地合併處理結果。合併資訊要求以共同的方式對資料進行組織。否則,將每個資料條目從乙個源資料系統對映到另乙個源資料系統將非常耗時。

安全性分布式處理的安全性受到以下情況的影響:需要通過可能不安全的介質(例如 internet)將資訊從乙個站點傳輸到另乙個站點。除了提及所涉及的問題和某些可用的技術之外,本文將不討論安全性。對於許多互動方彼此之間可能直接了解也可能不了解的情況,解決分布式安全管理問題的一種方法是使用聯合網路模型(請參見圖 1)。

本文**ibm developerworks中國

分布式 2分布式事務

分布式 1概述cap和base 分布式 2分布式事務 分布式 3分布式一致性演算法 分布式 4集群 分布式 5服務限流演算法 分布式 6分布式id 分布式 7效能壓測 分布式 8日誌鏈路跟蹤 分布式 9分布式鎖 redis鎖的幾種實現 參考 分布式系統間各種問題 宕機 網路不穩定 本地事務無法滿足需...

分布式儲存架構一 分布式儲存概念

分布式儲存系統是由大量廉價普通pc伺服器通過internet互聯,對外作為乙個整體提供服務的系統。它的規模大且成本低。分布式儲存系統的特性 分布式儲存系統挑戰主要在於資料 狀態資訊的持久化,要求在自動遷移 自動容錯 併發讀寫的過程中保證資料的一致性。資料分布均勻 資料一致性 容錯能力 事務與併發控制...

分布式隨筆1 分布式概述

分布式,好寬泛的話題,來來咱扯兩句。你乙個人再強壯,也扛不了100袋大公尺,單機的資源也很有限,大 的大資料量 高併發以及各種業務需求 童鞋們的web應用,伺服器 rdb mq 服務 快取以及各類基礎設施,更別說還有安全 大資料方面的需求 於是,我們常見的面向服務的dubbo springcloud...