實用乾貨!大資料入門的常用技術棧全在這裡了

2021-10-01 22:32:58 字數 2269 閱讀 7681

大資料自 2009 年走向人們的視野,亦如所有新技術的發展,經歷了一波炒作後,由風口回歸理性發展。我們可以看到,隨著 iot 技術的發展和成熟,以及 5g 業務的全面鋪開,資料規模還將持續增長。

新晉技術風口 ai、區塊鏈、rpa 的發展也都離不開大資料技術。大資料技術將作為一項通用技術,應用在各個角落。同時,大資料技術的發展也由解決資料規模問題,發展到如何更高效地消費大資料,資料的實時性、雲上遷移等成為大資料圈的新挑戰。我們挑選了一些能應對這些新挑戰的有代表性的技術棧,繪製了如下大資料圈生態圖,並在下文對主流的技術棧進行了介紹:

olap 分析引擎:apache kylin™

apache kylin™ 是乙個開源的分布式分析引擎,提供 hadoop/spark 之上的 sql 查詢介面及多維分析(olap)能力以支援超大規模資料。apache kylin™ 僅需三步,即可實現超大資料集上的亞秒級查詢:

定義資料集上的乙個星形或雪花形模型

在定義的資料表上構建 cube

使用標準 sql 通過 odbc、jdbc 或 restful api 進行查詢

kylin 提供與多種資料視覺化工具的整合能力,如 tableau,powerbi 等。

都是 hbase 上的 sql 引擎,kylin 和 phoenix 有什麼不同?

kylin 在攜程百億級資料分析中的實踐

從 es 到 kylin,鬥魚客戶端效能分析平台進化之旅

如何在 1 秒內做到大資料精準去重?

想做大資料實時分析?且看 kylin 如何解決

新一代大資料計算引擎:apache flink

如果你也想做實時數倉...

flink 客戶端操作的 5 種模式

flink 狀態管理及容錯機制

flink sql 程式設計實踐

flink runtime 核心機制剖析

apache pulsar 源於 yahoo,2016 年開源,2018 年正式成為 apache 頂級專案,集訊息、儲存和函式式輕量化計算的流資料平台。

技術上採用業界領先的計算和儲存分離架構,使用 apache bookkeeper 作為其分片儲存,配合層級儲存,具備「高吞吐、低延時、分布式強一致、瞬時彈性擴容、balance-free、故障自恢復的高可用」 等核心特性。

apache pulsar 介紹

apache pulsar:從訊息系統到流原生平台

apache pulsar 專案和社群分享

apache pulsar 的跨地域複製機制介紹

flink 和 pulsar 的批流融合

開源的非關係型分布式資料庫:apache hbase

apache hbase 是乙個高可靠、高效能、面向列、可伸縮的分布式資料庫,是谷歌 bigtable 的開源實現,主要用來儲存非結構化和半結構化的鬆散資料。hbase 的目標是處理非常龐大的表,可以通過水平擴充套件的方式,利用廉價計算機集群處理由超過 10 億行資料和數百萬列元素組成的資料表。

再談 hbase 八大應用場景

hbase 原理|hbase 記憶體管理之 memstore 演化論

hbase 抗戰總結|阿里巴巴 hbase 高可用8年抗戰回憶錄

hbase 實踐|說好不哭,但 hbase 2.0 真的好用到哭

hbase 分享 | 基於 hbase 和 spark 構建企業級資料處理平台

開源分布式 nosql 資料庫系統:apache cassandra

一篇文章了解 apache cassandra 是什麼

apache cassandra 快速入門指南

誰說不火-價值百億 cassandra 背後的力量

5個選擇 cassandra 而非 dynamodb 的原因

曾經你對 cassandra 的一些誤解

大資料常用技術棧

提起大資料,不得不提由ibm提出的關於大資料的5v特性 volume 大量 velocity 高速 variety 多樣 value 低價值密度 veracity 真實性 而對於大資料領域的從業人員的日常工作也與這5v密切相關。大資料技術在過去的幾十年中取得非常迅速的發展,尤以hadoop和spar...

大資料 技術入門03

yarn是資源管理系統,理論上支援多種資源,目前支援cpu和記憶體兩種資源 yarn產生背景 直接源於mrv1在幾個方面的缺陷 擴充套件性受限 單點故障 難以支援mr之外的計算 多計算框架各自為戰,資料共享困難 mr 離線計算框架 storm 實時計算框架 spark 記憶體計算框架 yarn設計目...

大資料技術棧 ETL(資料倉儲技術)

etl特點 etl是英文extract transform load的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。目的就是將企業中的分散 零亂 標準不統一的資料整合到一起,為企業的決策提供分析依據。etl是bi business in...