oracleRAC腦裂現象排查

2021-10-02 01:52:13 字數 892 閱讀 8272

現象:機器頻繁重啟,10:01重啟第一次,15:22重啟第二次,00:02重啟第三次

近期機器機器由於cpu板故障,更換過記憶體和記憶體板,從硬體和軟體兩方面進行排查。

硬體排查:

開機狀態下收集ilo日誌

停機狀態下收集主機硬體日誌

軟體排查:

可能造成節點重啟的程序有3個,ocssd,oprocd,oclsomon

重啟原因:

ocssd的原因就是心跳丟失(網路心跳或者投票磁碟出現問題)和css程序請求不到cpu資源和bug;

oprocd的原因是程序請求不到cpu資源和bug

oclsomon檢測ocssd服務的狀態,如果發現ocssd服務異常,則發起重啟

日誌目錄:

ocssd: $ora_crs_home/log/[hostname]/cssd/ocssd.log

oprocd:

/etc/oracle/oprocd/[hostname].oprocd.log.2010-04-21-11:08:02(linux)

/var/opt/oracle/oprocd/[hostname].oprocd.log.2010-04-21-11:08:02(hp)

oclsomon:

$ora_crs_home/log/[hostname]/cssd/oclsomon/oclsomon.bax oclsomon.log

oprocd和hangcheck-timer在linux平台下是同時執行並提供不同的檢測機制的,當他們導致節點重啟的話,在系統日誌中記錄的資訊是不同的:

oprocd導致的重啟會記錄"sysrq: resetting"

hangcheck-timer導致的重啟會記錄"hangcheck: hangcheck is restarting the machine"

ES集群腦裂現象

如果發生網路中斷或者伺服器宕機,那麼集群會有可能被劃分為兩個部分,各自有自己的master來管理,那麼這就是腦裂。master主節點要經過多個master節點共同選舉後才能成為新的主節點。就跟班級裡選班長一樣,並不是你1個人能決定的,需要班裡半數以上的人決定。解決實現原理 半數以上的節點同意選舉,節...

高可用的腦裂現象

由於某些原因,導致兩台keepalived高可用伺服器在指定時間內,無法檢測到對方的心跳,各自取得資源及服務的所有權,而此時的兩台高可用伺服器又都還活著。1 伺服器網線鬆動等網路故障 2.伺服器硬體故障發生損壞現象而崩潰 3.主備都開啟firewalld防火牆 1 開啟防火牆 root lb01 s...

簡單交接zookeeper,腦裂現象

zookeeper 1.zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。2.zookeepe...