葵花寶典 kafka

2021-10-05 08:13:34 字數 1768 閱讀 6403

kafka是乙個分布式的基於發布/訂閱模式的訊息佇列主要應用於大資料實時處理領域。

producer:生產者,向kafka傳送資料

consumer:消費者,消費kafka內的資料

consumer group:消費者組,消費者組內的消費者負責消費不同分割槽的資料,乙個分割槽只能由乙個消費者消費,乙個消費者可以消費多個分區內的資料,消費者組之間互不影響

broker:一台kafka機器就是乙個broker,乙個集群多個broker,乙個broker可以容納多個topic

topic:佇列的名稱

partition:分割槽,乙個topic分為多個分割槽,每個分區內訊息有序

replica:副本,對於分割槽來說的,每個分割槽有備份的副本。每個分割槽都有leader和follower,leader對外提供服務

leader:分割槽資料的主,對外提供服務

follower:分割槽資料的備份,並且實時同步leader的資料

kafka基於zk執行,需要先安裝zk再安裝kafka,zk和kafka節點各三颱

#broker的全域性唯一編號,不能重複

broker.id=0

#刪除topic功能使能

delete.topic.enable=true

#處理網路請求的執行緒數量

num.network.threads=3

#用來處理磁碟io的現成數量

num.io.threads=8

#傳送套接字的緩衝區大小

socket.send.buffer.bytes=102400

#接收套接字的緩衝區大小

socket.receive.buffer.bytes=102400

#請求套接字的緩衝區大小

socket.request.max.bytes=104857600

#kafka執行日誌存放的路徑

log.dirs=/opt/module/kafka/logs

#topic在當前broker上的分割槽個數

num.partitions=1

#用來恢復和清理data下資料的執行緒數量

num.recovery.threads.per.data.dir=1

#segment檔案保留的最長時間,超時將被刪除

log.retention.hours=168

#配置連線zookeeper集群位址

zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka

啟動kafka:kafka-server-start.sh -daemon $kafka_home/config/server.properties

分割槽策略

資料可靠性

exactly once語義:保證資料不重複,在0.11版本後增加了冪等性,生產者在傳送資料的時候對做快取,保證訊息不重複,但在跨分割槽和跨會話不能保證

消費方式:消費者以拉的方式進行消費

分割槽分配策略:隨機(容易傳送資料傾斜)、輪詢

offset維護:0.9之前在zk中維護,之後offset的資料在本地保持,但在zk中又offset對應的topic

順序寫入、批處理、零拷貝、分布式、分割槽

在kafka集群中,broker中又乙個時controller,負責broker的上線下,topic的副本分配和leader選舉。

0.11版本之後引入了事務,引入了全域性的事務id,生產一批資料的時候,發生異常,整批資料一起回滾。事務操作也會在乙個topic下進行

葵花寶典 Flume

2 配置樣例 定義agent的名字 source channel sink a1.sources r1 a1.sinks k1 a1.channels c1 配置source 查閱官網 a1.sources.r1.type netcat a1.sources.r1.bind localhost a1...

葵花寶典完全解析!

欲練神功,揮刀自宮。這是絕世神功 葵花寶典 的入門法則,聲稱要練這門神功的人必須先揮刀割掉自己的jj才能入門,殊為恐怖,於是早就了江湖上不少仁人志士為了練就神功,不惜捨棄人世間最重要的一項生活,忍痛割愛。然而,真的必須割麼?經過研究和思考,我發現乙個驚天秘密,其實中原的武林人士都對寶典的這句入門法則...

找到了眾多本「葵花寶典」

找到了眾多本 葵花寶典 又經歷了人生的一次搬家,從上大學到現在搬家都數不過來了,每次搬家必然麻煩我的親朋好友,書多呀。但凡搬家,總會丟書,這次亦然。我可憐的書呀,你在 昨 天晚上整理書籍,知道了眾多的寶典,真的是 葵花寶典 從 圖論程式設計 到 具體數學 電腦科學基礎 再到 計算機程式設計藝術 這些...