oracleRAC腦裂現象排查

現象：機器頻繁重啟，10:01重啟第一次，15:22重啟第二次，00:02重啟第三次

近期機器機器由於cpu板故障，更換過記憶體和記憶體板，從硬體和軟體兩方面進行排查。

硬體排查：

開機狀態下收集ilo日誌

停機狀態下收集主機硬體日誌

軟體排查：

可能造成節點重啟的程序有3個，ocssd，oprocd，oclsomon

重啟原因：

ocssd的原因就是心跳丟失（網路心跳或者投票磁碟出現問題）和css程序請求不到cpu資源和bug；

oprocd的原因是程序請求不到cpu資源和bug

oclsomon檢測ocssd服務的狀態，如果發現ocssd服務異常，則發起重啟

日誌目錄：

ocssd: $ora_crs_home/log/[hostname]/cssd/ocssd.log

oprocd:

/etc/oracle/oprocd/[hostname].oprocd.log.2010-04-21-11:08:02（linux）

/var/opt/oracle/oprocd/[hostname].oprocd.log.2010-04-21-11:08:02(hp)

oclsomon:

$ora_crs_home/log/[hostname]/cssd/oclsomon/oclsomon.bax oclsomon.log

oprocd和hangcheck-timer在linux平台下是同時執行並提供不同的檢測機制的，當他們導致節點重啟的話，在系統日誌中記錄的資訊是不同的：

oprocd導致的重啟會記錄"sysrq: resetting"

hangcheck-timer導致的重啟會記錄"hangcheck: hangcheck is restarting the machine"

ES集群腦裂現象

如果發生網路中斷或者伺服器宕機，那麼集群會有可能被劃分為兩個部分，各自有自己的master來管理，那麼這就是腦裂。master主節點要經過多個master節點共同選舉後才能成為新的主節點。就跟班級裡選班長一樣，並不是你1個人能決定的，需要班裡半數以上的人決定。解決實現原理半數以上的節點同意選舉，節...

高可用的腦裂現象

由於某些原因，導致兩台keepalived高可用伺服器在指定時間內，無法檢測到對方的心跳，各自取得資源及服務的所有權，而此時的兩台高可用伺服器又都還活著。1 伺服器網線鬆動等網路故障 2.伺服器硬體故障發生損壞現象而崩潰 3.主備都開啟firewalld防火牆 1 開啟防火牆 root lb01 s...

簡單交接zookeeper，腦裂現象

zookeeper 1.zookeeper是乙個分布式的，開放原始碼的分布式應用程式協調服務，是google的chubby乙個開源的實現，是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體，提供的功能包括配置維護網域名稱服務分布式同步組服務等。2.zookeepe...

oracleRAC腦裂現象排查

ES集群腦裂現象

高可用的腦裂現象

簡單交接zookeeper，腦裂現象

相關推薦