Presto基本配置

2021-09-14 00:29:18 字數 1595 閱讀 8650

介紹

presto是由facebook開源,基於記憶體的分布式查詢引擎。支援多資料來源,可支援pb級海量資料查詢,本身不作資料儲存。由於基於記憶體查詢,減少了io開銷,故查詢效率很高,但不適用於多表聯合查詢。

架構

presto主要配置檔案如下:

catalog/:配置各資料來源的資訊,如hive,mongdb等。以hive為例:

connector.name=hive-hadoop2

hive.metastore.uri=thrift:

hive.config.resources=/etc/hadoop/conf/core-site.xml, /etc/hadoop/conf/hdfs-site.xml

hive.allow-drop-table=true

config.properties:presto的配置檔案,coordinator與worker略有不同。

coordinator中基本配置:

discovery.uri=worker中基本配置:

discovery.uri=jvm.config:jvm啟動時的配置資訊

-server

-xmx16g

-xx:+useg1gc

-xx:g1heapregionsize=32m

-xx:+usegcoverheadlimit

-xx:+explicitgcinvokesconcurrent

-xx:+heapdumponoutofmemoryerror

-xx:onoutofmemoryerror=kill -9 %p

log.properties:配置日誌級別資訊

com.facebook.presto=debug
node.properties:每個節點的配置資訊

node.environment=集群名稱

node.id=節點id (各節點不同)

node.data-dir=/presto (資料目錄,包括配置,日誌等)

啟動

presto啟動較為簡單,在安裝目錄bin下啟動 ./launcher start (restart/stop)。日誌記錄在節點配置所指定的相應目錄下server.log。

Presto配置資料來源

首先登陸跳板機,然後使用ssh跳轉到presto的master節點 然後 sudo su 切換root賬戶 然後cd presto etc catalog cp 舊配置檔案名稱.properties 新配置檔案名稱.properties 注意 新的配置檔案名稱中不能使用 來連線業務名稱,例如 mys...

Presto初步認識

presto是乙個分布式sql查詢引擎,它被設計為用來專門進行高速 實時的資料分析。presto 的實現和 hive 有著本質的不同 hive 是把乙個 query 轉化成多個 stage 的 mapreduce 的任務,然後乙個接乙個執行。執行的中間結果通過對磁碟的讀寫來同步。然而,presto ...

Presto查詢優化

合理設定分割槽 與hive類似,presto會根據元資訊讀取分割槽資料,合理的分割槽能減少presto資料讀取量,提公升查詢效能。使用列式儲存 presto對orc檔案讀取做了特定優化,因此在hive中建立presto使用的表時,建議採用orc格式儲存。相對於parquet,presto對orc支援...