大資料平台名稱解釋

2021-10-09 08:24:50 字數 1472 閱讀 4488

sqoop(發音:skup)是一款開源的工具,主要用於在hadoop(hive)與傳統的資料庫(mysql、postgresql…)間進行資料的傳遞,可以將乙個關係型資料庫(例如 : mysql ,oracle ,postgres等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

sqoop是乙個分布式的資料遷移工具,可以將乙個關係型資料庫(例如 : mysql ,oracle ,postgres等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。

對於某些nosql資料庫它也提供了聯結器。sqoop,類似於其他etl工具,使用元資料模型來判斷資料型別並在資料從資料來源轉移到hadoop時確保型別安全的資料處理。sqoop專為大資料批量傳輸設計,能夠分割資料集並建立maptask任務來處理每個區塊。

hadoop分布式檔案系統(hdfs)是指被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統(distributed file system)。它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分布式檔案系統的區別也是很明顯的。hdfs是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。hdfs放寬了一部分posix約束,來實現流式讀取檔案系統資料的目的。hdfs在最開始是作為apache nutch搜尋引擎專案的基礎架構而開發的。hdfs是apache hadoop core專案的一部分。

spark sql是spark用來處理結構化資料的乙個模組,它提供了乙個程式設計抽象叫做dataframe並且作為分布式sql查詢引擎的作用

hbase – hadoop database,是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統,利用hbase技術可在廉價pc server上搭建起大規模結構化儲存集群。

hbase是乙個分布式的、面向列的開源資料庫,該技術**於 fay chang 所撰寫的google**「bigtable:乙個結構化資料的分布式儲存系統」。就像bigtable利用了google檔案系統(file system)所提供的分布式資料儲存一樣,hbase在hadoop之上提供了類似於bigtable的能力。hbase是apache的hadoop專案的子專案。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。另乙個不同的是hbase基於列的而不是基於行的模式。

聯機分析處理olap是一種軟體技術,它使分析人員能夠迅速、一致、互動地從各個方面觀察資訊,以達到深入理解資料的目的。它具有fasmi(fast analysis of shared multidimensional information),即共享多維資訊的快速分析的特徵。其中f是快速性(fast),指系統能在數秒內對使用者的多數分析要求做出反應;a是可分析性(analysis),指使用者無需程式設計就可以定義新的專門計算,將其作為分析的一部 分,並以使用者所希望的方式給出報告;m是多維性(multi—dimensional),指提供對資料分析的多維檢視和分析;i是資訊性(information),指能及時獲得資訊,並且管理大容量資訊

大資料平台容量評估 大資料平台

系統概述 大資料應用支撐平台提供資料支撐服務,對外發布資料服務進行資料價值變現。包含資料採集 資料治理 資料交換 資料儲存 資料計算相關元件的搭建 驗證,並建立大資料倉儲。b 功能要求 2.資料治理,由於從資料採集工具採集過來的資料不具備統一的資料標準及資料格式,資料治理工具需要對到達的資料進行格式...

關於大資料的大資料平台

大資料平台,顧名思義就是整合 應用和大資料系統之間的差異,將應用程式產生的資料匯入到大資料系統,經過處理計算後再匯出給應用程式使用。網際網路產品處理使用者請求,需要毫秒級的響應,要在 1 秒內完成計算,普通大資料計算必然不能實現這樣的響應要求。如何才能彌補這網際網路和大資料系統之間的差異呢?解決方案...

大資料一些名稱

資料倉儲 英文名稱為data warehouse,簡稱dw,研究和解決從資料中獲取資訊,滿足企業商業決策和分析 資料化運營而建立,為企業提供資料智慧型來指導業務流程改進和優化時間 成本 質量和控制。商業智慧型 英文名稱為business intelligence,簡稱bi,指用現代資料倉儲技術 線上...