大資料產品介紹

elasticsearch

elasticsearch 簡稱es ：分布式可擴充套件去中心化的實時搜尋和分析引擎

去中心化：即無主節點，對外部來說，無論你訪問的是哪個節點，都是和整個集群在互信。它的主節點是可以通過選舉產生的。

特點：分布式實時檔案儲存，並將每乙個欄位都編入索引，使其可以被搜尋；可以擴充套件到上百臺伺服器，處理pb級別的結構化或非結構化資料。

儲存：elasticsearch是面向文件型資料庫，一條資料是乙個文件，用json格式儲存。

搜尋：es的一切設計是為了檢索快速響應。使用倒排索引的設計方式，為每一列都建立索引。雖然會犧牲插入和更新的效率，但es的核心是查詢。

shards ：索引分片。將乙個大的索引分成多個分片，分布到不同節點上，構成分布式搜尋。只能在索引建立前指定，其後不可更改。

replicas ：副本。 1、提高容錯性 2、查詢時可以負載均衡。

recovery ：資料重新分布。新增或減少節點的時候，會recovery

kafk高吞吐量的分布式發布訂閱訊息系統受zookeeper管理

kafka的特性:

redis：高效能的key-value資料庫。

原子性：要麼都成功，要麼都失敗；同時基於原子性也可以支援到事務，使用multi和exec指令包起來支援事務。

基於記憶體： redis執行在記憶體中但是可以持久化到磁碟。

效能極高： redis能讀的速度可以達到100000次/s,寫的速度是80000次/s 。

hive 基於hadoop的乙個資料倉儲工具

1、hive本身不做資料儲存，資料存放在hdfs上，對於表來說則是hdfs上的乙個預定義好的額目錄。hive不支援對資料的修改和增加。

2、hiveql是一種類sql，最終會轉化為hadoop的mapreduce任務。學習成本低，通過類sql實現mr任務，使邏輯可讀性增強。

3、hive適用於離線的大資料分析統計，有很高的延遲，在任務的提交和排程的時候都有很大的開銷。所以幾百mb的資料不適於用hive分析統計。

hive特性

● 支援建立索引，優化資料查詢。

● 不同的儲存型別，例如，純文字檔案、hbase 中的檔案。

● 將元資料儲存在關聯式資料庫中，大大減少了在查詢過程中執行語義檢查的時間。

● 可以直接使用儲存在hadoop 檔案系統中的資料。

● 內建大量使用者函式udf 來操作時間、字串和其他的資料探勘工具，支援使用者擴充套件udf 函式來完成內建函式無法實現的操作。

● 類sql 的查詢方式，將sql 查詢轉換為mapreduce 的job 在hadoop集群上執行。

spark 基於記憶體的計算。

**使用場景：**可以支援互動式查詢（spark sql）、批處理、流計算（spark streaming）、圖計算（graphx）、機器學習（spark mllib）。

通用性：spark不同處理不同型別的資料可以在乙個應用中無縫使用，統一的解決方案有效減少開發、減少維護的人力成本和部署平台的物力成本。

**相容性：**spark主要執行在hadoop上，可以支援hadoop的hive、hbase和cassandra等主要資料格式。所以hadoop上只需安裝spark即可使用這些功能，無需資料格式的遷移。

應用flink：流處理基於記憶體的，也可定製化記憶體計算，避免oom錯誤

特點：1、記憶體計算，也可定製化記憶體來避免記憶體溢位錯誤。

2、高吞吐、低延遲

3、支援視窗

4、exactly once語義保證

flink最主要兩點：視窗和exactly once

1、有界流處理有界流等待所有資料到達即可計算，這點沒什麼可說的。

2、無界流處理無界流需要用到視窗，視窗可以是時間（每10秒鐘）、條數（每100條）、session等。在無界流達到上述視窗期時啟動一次計算，如count等。

3、exactly once 如果有節點失敗，flink會從最近的乙份快照開始重放資料來保證資料不丟失，而且它還會保證資料不會重複計算。

storm：流處理。

hbase： bigtable 基於hadoop的列式儲存，時間戳記錄。

hbase是一種hadoop資料庫，經常被描述為一種稀疏的，分布式的，持久化的，多維有序對映，它基於行鍵、列鍵和時間戳建立索引，是乙個可以隨機訪問的儲存和檢索資料的平台

hbase使用場景和成功案例

網際網路搜尋問題：爬蟲收集網頁，儲存到bigtable裡，mapreduce計算作業掃瞄全表生成搜尋索引，從bigtable中查詢搜尋結果，展示給使用者。

抓取增量資料：例如，抓取監控指標，抓取使用者互動資料，遙測技術，定向投放廣告等

內容服務

資訊互動

資料中臺

資料中颱是指通過資料技術，對海量資料進行採集、計算、儲存、加工，同時統一標準和口徑。

資料中臺建設的基礎還是資料倉儲和資料中心，並且在數倉模型的設計上也是一脈傳承，之所以我們現在處處推崇資料中臺建設及應用，乙個是因為資料中臺確實有過人之處，另乙個是這套模型在阿里體現了巨大的應用價值。

資料中臺能力

資料資產管理資料質量管理資料模型管理構建標籤體系

資料應用規劃及實現

資料中臺策略的基本理念是，將所有的資料匯聚到資料中臺，以後的每個資料應用（無論是指標和分析類的，還是畫像類和大資料類的）統統從資料中臺獲取資料，如果資料中臺沒有，那麼資料中颱就負責把資料找來，如果資料中颱找不來，就說明當前真沒有這個資料，資料應用也就無從展開。

資料中臺構成

資料倉儲大資料中介軟體資料資產管理

大資料產品介紹

MODIS資料產品介紹

大資料介紹

大資料介紹

大資料產品介紹

MODIS資料產品介紹

大資料介紹

大資料介紹

相關推薦