linux運維系統故障排查思路

2021-08-21 15:16:15 字數 2196 閱讀 4458

一 linux系統故障的一般處理思路

報錯資訊--->查閱日誌檔案--->分析定位問題--->解決問題。

二 linux系統無法啟動原因及解決

系統無法啟動的原因很多,常見的有下面幾種情況:

1 檔案系統被破壞,常常因斷電和非法關機引起檔案系統結構不一致。修復方法是用fsck命名強制修復,進入單使用者模式或者互動介面,按提示進入修改模式中,解除安裝對應的問題磁碟,然後用fsck命令修復,無法恢復的資料會存放在lost+found下。umount /dev/sda3    fsck.ext4 -y /dev/sda3  

2 系統配置/etc/fstab錯誤或丟失而無法啟動。當啟動時候出現 starting system logger後停止了,就要想辦法恢復/etc/fstab檔案,利用linux rescue修復模式登入系統,從而獲取掛載點和分割槽資訊,重構/etc/fstab檔案。

3 系統核心檔案丟失,核心公升級錯誤,引導程式出錯,硬體故障等都會引起無法啟動

三 linux網路故障處理思路流程

1 檢查許可權是否開啟,iptables,selinux 

2 服務是否正常,用telnet或netstat檢查服務是否正常開啟

3 檢查本機網路是否正常,ping自身ip、同網段主機、閘道器

4 檢查dns解析是否正常,/etc/hosts和/etc/resolv.conf

5 檢測網絡卡ip設定,route檢查路由是否正確

6 檢查網路硬體,網絡卡、路由器、集線器、網線、交換機(lsmod、ifconfig、ip)

四 read-only file system 錯誤解決

思路:**程式問題

磁碟問題

排查**程式,看報錯資訊和服務日誌錯誤,以及系統日誌,來定位問題所在 read-only file system 多數就是磁碟問題,出現上面錯誤的時候,磁碟對應目錄是無法寫入的,那麼就要進行修復了,檔案系統修復命令fsck

首先檢視是否有使用者正在使用該磁碟,fuser -m /dev/sda1,如果有就停止對應埠程式

接著解除安裝檔案系統  umount  /www/data

然後修復檔案系統  fsck -v -a /dev/sda1

最後恢復掛載  mount /dev/sda1 /www/data

五 argument list too long 錯誤解決

當刪除乙個目錄中的大量檔案時,可能會出現這種報錯,這是由於linux系統對傳遞引數的限制,可以用getconf arg_max檢視這個數值,

重新編譯核心引數可以永久解決問題,但是編譯核心有風險,還是用下面方法保險

既然不能一下清除大量檔案,那麼分批刪除或者查詢或者迴圈刪除就可以了,可以用下面命令清理

rm [a-n]* -rf

rm [o-z]* -rf

find /www/data -type f -print -exec rm -f  {} \;

六 inode耗盡故障

當inode耗盡後,磁碟雖然有剩餘空間,但也會出現 no space left 的報錯

用 df -i 命令可以檢視所有分割槽對應inode的使用情況

用 ls -i nginx.log   能檢視對應檔案的inode編號。詳細資訊用 stat nginx.log 檢視

針對inode耗盡的情況,清理刪除那些無用的檔案就可以了,尤其是那些碎小的檔案

七 刪除檔案後空間不釋放問題

檔案系統的資料分為兩個部分:資料部分和指標部分,當有程序正在使用某個檔案是,執行刪除命令,空間是不會釋放的,刪除的是資料檔案部分,指標部分並未刪除,所以空間並不釋放。

用 lsof |grep delete    檢視已刪除的檔案,找到對應檔案 執行清空命令  echo " " > /tmp/nginx.log  空間就會得到釋放

八 「too many open files」錯誤

服務出現報錯異常  too many open files 

用 ulimit -n  檢視檔案描述符 65535 是最大值

檢查普通使用者的值  cat /etc/security/limits.conf |grep www    

如果普通使用者的值不是65535  那麼給普通使用者新增這個限制

www soft nofile 65535

www hard nofile 65535

如果上面的普通使用者的值顯示65535  而依舊出現這個錯,就要考慮新增limit值的時間是否早於應用最後一次啟動的時間,應用時間早的話,直接重啟應用就可以了

Linux 系統故障排查思路簡析

處理linux系統故障的思路 1.重視錯誤提示資訊。2.查閱日誌檔案 message 系統日誌 服務的日誌 error 應用日誌 3.分析,定位問題。4.解決問題。忘記root密碼?重置 centos5或者6 啟動載入grub引導選單時 按esc 找到當前系統引導選項。按方向鍵找到需要的系統引導核心...

系統故障排查

一 1.建立用於儲存mbr備份的新硬碟分割槽,並永久掛載 1 新建乙個目錄 mkdir backmbr 2 掛載 mount dev sdd1 backmbr 永久掛載 vim etc fstab 3 備份mbr扇區資料 dd if dev sda of backmbr mbr.bak bs 512...

Linux系統故障修復

linux系統中有乙個叫做單使用者模式的東西,類似windows系統中的安全模式。進入單使用者模式後,我們就可以在最小環境中進行系統的維護與修復,玩過linux系統的都知道linux中有乙個執行級別的概念,單使用者模式就是執行級別1。在單使用者模式中,系統會引導你進入根shell,並且禁用網路,大多...