大資料分析引擎之presto簡介

2021-10-07 11:18:39 字數 3174 閱讀 7237

簡介:

presto是乙個大資料分析引擎,不屬於hadoop體系,他是基於記憶體的。他的集群模式是主從式的。

他可以與任何的大資料儲存引擎做整合,整合的時候使用它的connectors整合

從這裡我們可以他可以和kafka、mysql、記憶體、hive來做整合

安裝:

1.解壓:tar -zxvf presto-server-0.217.tar.gz -c ~/training/

2.建立etc目錄,幷包含以下配置檔案

cd ~/training/presto-server-0.217/

mkdir etc

① node properties: 節點的配置資訊

② jvm config: 命令列工具的jvm配置引數

③ config properties: presto server的配置引數

④ catalog properties: 資料來源(connectors)的配置引數

⑤ log properties:日誌引數配置

node.properties

#集群名稱。所有在同乙個集群中的presto節點必須擁有相同的集群名稱。

node.environment=production

#每個presto節點的唯一標示。每個節點的node.id都必須是唯一的。在presto進行重啟或者公升級過程中每個節點的node.id必須保持不變。如果在乙個節點上安裝多個presto例項(例如:在同一臺機器上安裝多個presto節點),那麼每個presto節點必須擁有唯一的node.id。

node.id=ffffffff-ffff-ffff-ffff-ffffffffffff

# 資料儲存目錄的位置(作業系統上的路徑)。presto將會把日期和資料儲存在這個目錄下。

node.data-dir=

/root/training/presto-server-

0.217

/data

jvm.config(記憶體相關配置)

-server

-xmx16g

-xx:

+useg1gc

-xx:g1heapregionsize=

32m-xx:

+usegcoverheadlimit

-xx:

+explicitgcinvokesconcurrent

-xx:

+heapdumponoutofmemoryerror

-xx:

+exitonoutofmemoryerror

config.properties(因為測試用到的一台虛擬機器所以我們只簡單配置乙個檔案就行了,如果我們是全分布式的需要配置主節點和從節點的)

log.properties (日誌相關配置)

com.facebook.presto=info
整合hive,整合hive的時候我們必須在presto的etc資料夾下建立乙個catalog目錄,所有整合資料來源都在這裡配置

mkdir /root/training/presto-server-0.217/etc/catalog

hive.properties(整合hive的配置檔案)

#註明hadoop的版本

connector.name=hive-hadoop2

#hive-site中配置的位址

hive.metastore.uri=thrift://

192.168

.157

.111

:9083

#hadoop的配置檔案路徑

hive.config.resources=

/root/training/hadoop-

3.1.2

/etc/hadoop/core-site.xml,

/root/training/hadoop-

3.1.2

/etc/hadoop/hdfs-site.xml

注意:要訪問hive的話,需要將hive的metastore啟動:hive --service metastore

這個視窗不能關掉

用來另乙個視窗啟動presto

啟動presto server

./launcher start

執行presto-cli

重新命名jar包,並增加執行許可權

cp presto-cli-0.217-executable.jar presto

chmod a+x presto

連線presto server

./presto --server localhost:8080 --catalog hive --schema default

然後我們使用presto命令列模式連線到hive的default預設的資料庫中

可以使用show tables檢視一下default庫中的table,並檢視一下它裡邊的表

這樣我們就把presto配置完成了

資料分析引擎Presto

presto與hbase的架構特別相似。都是主從架構思想。由於我們使用的hive只是把sql語句翻譯成mapreduce,然後再交給yarn去執行,我們都知道,yarn執行過程中,會產生資料落地,進而影響效率。因此我們通常用presto與hive做乙個整合,presto是完全記憶體計算,presto...

Apache Kylin大資料分析引擎

apache kylin kylin最開始由 ebay公司貢獻給開源社群。apache kylin支援你通過3個步驟以亞秒級的延遲查詢巨量的資料集合。1.在hadoop上定義乙個星型資料結構schema。2.根據定義的表來建立資料立方體。3.通過odbc,jdbc or restful api用標準...

《Python 金融大資料分析 python簡介》

1.風格 編輯python在設計上堅持了清晰劃一的風格,這使得python成為一門易讀 易維護,並且被大量使用者所歡迎的 用途廣泛的 語言。設計者開發時總的指導思想是,對於乙個特定的問題,只要有一種最好的方法來解決就好了。這在由tim peters寫的python格言 稱為the zen of py...