分布式實時日誌分析解決方案 ELK 部署架構

elk 已經成為目前最流行的集中式日誌解決方案，它主要是由beats、logstash、elasticsearch、kibana等元件組成，來共同完成實時日誌的收集，儲存，展示等一站式的解決方案。本文將會介紹elk常見的架構以及相關問題解決。

filebeat：filebeat是一款輕量級，占用服務資源非常少的資料收集引擎，它是elk家族的新成員，可以代替logstash作為在應用伺服器端的日誌收集引擎，支援將收集到的資料輸出到kafka，redis等佇列。

logstash：資料收集引擎，相較於filebeat比較重量級，但它整合了大量的外掛程式，支援豐富的資料來源收集，對收集的資料可以過濾，分析，格式化日誌格式。

elasticsearch：分布式資料搜尋引擎，基於apache

lucene實現，可集群，提供資料的集中式儲存，分析，以及強大的資料搜尋和聚合功能。

2.1、logstash作為日誌收集器

這種架構是比較原始的部署架構，在各應用伺服器端分別部署乙個logstash元件，作為日誌收集器，然後將logstash收集到的資料過濾、分析、格式化處理後傳送至elasticsearch儲存，最後使用kibana進行視覺化展示，這種架構不足的是：logstash比較耗伺服器資源，所以會增加應用伺服器端的負載壓力。

2.2、filebeat作為日誌收集器

該架構與第一種架構唯一不同的是：應用端日誌收集器換成了filebeat，filebeat輕量，占用伺服器資源少，所以使用filebeat作為應用伺服器端的日誌收集器，一般filebeat會配合logstash一起使用，這種部署方式也是目前最常用的架構。

2.3、引入快取佇列的部署架構

該架構在第二種架構的基礎上引入了kafka訊息佇列（還可以是其他訊息佇列），將filebeat收集到的資料傳送至kafka，然後在通過logstasth讀取kafka中的資料，這種架構主要是解決大資料量下的日誌收集方案，使用快取佇列主要是解決資料安全與均衡logstash與elasticsearch負載壓力。

2.4、以上三種架構的總結

第一種部署架構由於資源占用問題，現已很少使用，目前使用最多的是第二種部署架構，至於第三種部署架構個人覺得沒有必要引入訊息佇列，除非有其他需求，因為在資料量較大的情況下，filebeat 使用壓力敏感協議向 logstash 或 elasticsearch 傳送資料。如果 logstash 正在繁忙地處理資料，它會告知 filebeat 減慢讀取速度。擁塞解決後，filebeat 將恢復初始速度並繼續傳送資料。

問題：如何實現日誌的多行合併功能？

系統應用中的日誌一般都是以特定格式進行列印的，屬於同一條日誌的資料可能分多行進行列印，那麼在使用elk收集日誌的時候就需要將屬於同一條日誌的多行資料進行合併。

解決方案：使用filebeat或logstash中的multiline多行合併外掛程式來實現

在使用multiline多行合併外掛程式的時候需要注意，不同的elk部署架構可能multiline的使用方式也不同，如果是本文的第一種部署架構，那麼multiline需要在logstash中配置使用，如果是第二種部署架構，那麼multiline需要在filebeat中配置使用，無需再在logstash中配置multiline。

1、multiline在filebeat中的配置方式：

如：pattern: '['

negate: true

match: after

該配置表示將不匹配pattern模式的行合併到上一行的末尾

2、multiline在logstash中的配置方式

（1）logstash中配置的what屬性值為previous，相當於filebeat中的after，logstash中配置的what屬性值為next，相當於filebeat中的before。

（2）pattern => "%s*]" 中的loglevel是logstash預製的正則匹配模式，預製的還有好多常用的正則匹配模式，詳細請看：

問題：如何將kibana中顯示日誌的時間字段替換為日誌資訊中的時間？

預設情況下，我們在kibana中檢視的時間欄位與日誌資訊中的時間不一致，因為預設的時間字段值是日誌收集時的當前時間，所以需要將該字段的時間替換為日誌資訊中的時間。

解決方案：使用grok分詞外掛程式與date時間格式化外掛程式來實現

在logstash的配置檔案的過濾器中配置grok分詞外掛程式與date時間格式化外掛程式，如：

如要匹配的日誌格式為：「debug[defaultbeandefinitiondocumentreader:106] loading bean definitions」，解析出該日誌的時間欄位的方式有：

① 通過引入寫好的表示式檔案，如表示式檔案為customer_patterns，內容為：

customer_time %%%s+%

注：內容格式為：[自定義表示式名稱] [正規表示式]

然後logstash中就可以這樣引用：

② 以配置項的方式，規則為：(?《自定義表示式名稱》正則匹配規則)，如：

問題：如何在kibana中通過選擇不同的系統日誌模組來檢視資料

一般在kibana中顯示的日誌資料混合了來自不同系統模組的資料，那麼如何來選擇或者過濾只檢視指定的系統模組的日誌資料？

解決方案：新增標識不同系統模組的字段或根據不同系統模組建es索引

1、新增標識不同系統模組的字段，然後在kibana中可以根據該字段來過濾查詢不同模組的資料

這裡以第二種部署架構講解，在filebeat中的配置內容為：

通過新增：log_from欄位來標識不同的系統模組日誌

2、根據不同的系統模組配置對應的es索引，然後在kibana中建立對應的索引模式匹配，即可在頁面通過索引模式下拉框選擇不同的系統模組資料。

這裡以第二種部署架構講解，分為兩步：

① 在filebeat中的配置內容為：

通過document_type來標識不同系統模組

② 修改logstash中output的配置內容為：

在output中增加index屬性，%表示按不同的document_type值建es索引

本文主要介紹了elk實時日誌分析的三種部署架構，以及不同架構所能解決的問題，這三種架構中第二種部署方式是時下最流行也是最常用的部署方式，最後介紹了elk作在日誌分析中的一些問題與解決方案，說在最後，elk不僅僅可以用來作為分布式日誌資料集中式查詢和管理，還可以用來作為專案應用以及伺服器資源監控等場景

分布式實時日誌分析解決方案 ELK 部署架構

分布式事務解決方案

分布式事務解決方案

分布式事務解決方案

分布式實時日誌分析解決方案 ELK 部署架構

分布式事務解決方案

分布式事務解決方案

分布式事務解決方案

相關推薦