ID:liangxuxiansheng
無論是系統運維,還是應用運維,均可分為“純手工”—> “腳本化”—> “自動化”—>“智能化”幾個階段,其中自動化階段,主要是將一些重複性人工操作和運維經驗封裝為程序或腳本,一方面避免重複性操作及風險,另一方面提高執行效率。在自動化運維的轉變過程中,經常使用的可能就是shell腳本了,今天主要分享下shell腳本開發在運維工作中的一些經驗總結。
小腳本有大智慧,別小看幾十行代碼,夾雜著系統設計、代碼規範和操作經驗等等細節,在建設自動化運維的工作中,還是很值得我們研究學習的,下面總結這些也都是源於各位腳本達人和我們在自身工作中“遇到的坑”、“摔過的跟頭”和“排過的雷”,與大家共享。
這裡主要介紹並參考我行已經形成的一些shell編寫規範,編寫時嚴格遵守這些規範,不僅使編寫人受益,同時也能提高使用者的執行效率。
1)腳本開頭部分應有腳本功能說明、參數使用說明、作者姓名、創建/修改日期、版本信息,格式為:
2)腳本編寫時,注意格式對齊,如所有的循環或者判斷語句前後的語句進行對齊,以及case的選取完全,如:
3)腳本開頭執行時,執行如下命令,在執行過程中若遇到使用了未定義的變量或命令返回值為非零,將直接報錯退出:
4)建議將命令行的每個參數放在單引號、雙引號中,特別是rm、mv等可能對生產現有數據造成修改的操作,建議使用垃圾箱策略:rm操作轉意為mv操作,制定文件保存目錄,以防回退,並定期清理:
5)命令行中參數需要使用‘*’、‘?’通配符的,應依據最精確匹配原則,如能確定文件、目錄名稱的前綴、後綴、擴展名及其他可識別關鍵字的,須在參數中包含該信息,如能確定文件、目錄的長度應使用‘?’通配符,不得使用‘*’,推薦的使用方式:
不推薦使用的方式:
禁止使用的方式:
6)給數值型變量的賦值後,需由手段保證變量的值為數值型,避免在後續的處理中出現異常:
7)在判斷條件中使用的變量,必須包含在雙引號中,如:
禁止使用的方式:
8)對文件進行打包備份時,必須使用相對路徑進行打包,如:
嚴禁將全路徑打入tar包, 如:
9)對於打包後還需進行壓縮的文件,建議使用管道進行處理,如:
不建議兩部分分開執行:
10)使用ps命令篩選進程時,如能確定進程所屬用戶,必須在參數中指定用戶名稱,如其輸出作為kill命令的輸入,則必須指定進程所屬用戶,如:
這裡介紹的主要是日常shell編寫中遇到比較隱蔽或看似簡單,卻難以發現的“坑”,編寫中應儘量避免使用,使用更優的方法避免重蹈覆轍。
1)更新文件使用>不用cp
使用>修改和回退文件時,保留原文件的屬組和權限,避免使用cp時權限屬組被修改。
2)使用kill前確認
關鍵字用-w 精確匹配字段;
kill前後都保留現場, 兩次ps -ef|grep -w 關鍵字|grep -v grep >>/tmp/kill_進程名_.backup;
刪除前要校驗,獲取進程號是否唯一,避免多殺或誤殺的情況。
3)使用rm前確認
刪除前備份刪除對象信息,避免使用變量,直接使用文件和目錄名;
如果必須使用時,刪除前,建議檢查避免誤刪,刪除目錄和文件信息保留:
建議禁用find遍歷根目錄進行查找,同時刪除前進行確認,避免多刪或誤刪的情況。
4)For循環的坑
for循環的in條件按空格來區分,避免進入不正確或死循環。
5)while循環的禁忌
如果還想使用循環中的變量,不要while結合管道使用。
6)慎用cp
這句話基本上正確,但同樣有空格分詞的問題。所以應當用雙引號:
但是如果湊巧文件名以 - 開頭,這個文件名會被 cp 當作命令行選項來處理。
可以試試下面這個:
但也可能再碰上一個不支持 -- 選項的系統,所以最好用下面的方法:
7)慎用cd
避免使用cd到操作目錄再操作的方式,可能導致進入目錄失敗,誤刪除,如:
建議如下:
8) 用[[ ]]代替[ ]
當$var為空時,上面的命令就變成了[ ="bar" ]
類似地,當$var包含空格時:
[ space words here = "var" ]兩者都會出錯。所以應當用雙引號將變量括起來:
[ "$var" = var ] 幾乎完美了。
但是,當$var以 - 開頭時依然會有問題。在較新的bash中你可以用下面的方法來代替,[[ ]]關鍵字能正確處理空白、空格、帶橫線等問題。
另注意,[[適用於字符串,如果是數值,要用如:(( $var > 8 ))
9)管道操作中不要同時讀寫文件
你不能在同一條管道操作中同時讀寫一個文件。根據管道的實現方式,file要麼被截斷成0字節,要麼會無限增長直到填滿整個硬盤。如果想改變原文件的內容,只能先將輸出寫到臨時文件中再用mv命令。
10)cd的易錯問題
cd 有可能會出錯,導致要執行的命令就會在你預想不到的目錄裡執行了。所以一定要記得判斷cd的返回值。
如果你要根據cd的返回值執行多條命令,可以用 ||。
關於目錄的一點題外話,假設你要在shell程序中頻繁變換工作目錄,如下面的代碼:
不如這樣寫:
括號會強制啟動一個子shell,這樣在這個子shell中改變工作目錄不會影響父shell(執行這個腳本的shell),就可以省掉cd - 的麻煩。
目前行裡自動化工具越來越多,無論是應用的MAOP或系統的SMDB,自動化實現都還是日常運維腳本的調用,結合日常運維的一些經驗,腳本中就更需要考慮周全和控制風險。這裡介紹一些結合運維場景的腳本應用,希望規避以前犯過的錯,重點在控制風險。
1) 支持交互式腳本的應用
很多腳本中需要進行交互,在規避風險的同時,需要通過自動化工具發佈來支持交互,可以使用expect,示例如下:
也可以使用curl工具來替代簡單的交互:
#FTP SFTP下載
curl-u ftpuser:ftppassword -O "sftp://ftp_ip:ftp_port/pathfile"
#FTP SFTP上傳
curl-u ftpuser:ftppassword --ftp-create-dirs-T upfile "sftp://ftp_ip:ftp_port/filepath/upfile"
2)腳本規範執行和日誌追溯
直接執行的腳本很危險,要提示用戶如何使用腳本,並記錄日誌以便跟蹤。
示例如下:
3)腳本的併發鎖控制
避免多人同時執行或併發同時執行的異常問題,建議增加鎖機制,示例如下:
4)控制腳本不退出的風險
週期頻繁執行的腳本,需要防止腳本hang住不退出,導致後續腳本再次執行。
5)避免集中發佈腳本造成的風險
使用ftp、sftp傳輸、下載文件,或者集中訪問存儲端口時,儘量增加發布對象散列,避免集中操作造成存儲端口擁堵,跨防火牆流量超限報警等影響。
6)避免文件無限增長的風險
向一個文件中追加數據時,一定要設置閥值,必要時清空,避免文件無限增大:
目錄增加清理過期文件策略,避免產生的文件越來越多,造成文件節點用盡:
目錄中的文件過多,會報參數太長錯誤無法刪除,建議放在循環中遍歷刪除:
總結:
鑑於以上腳本,我們可以從中汲取一些經驗,規避一些風險:
通過增加日誌記錄輸出和腳本執行的方法說明,並自動交互和傳遞參數,避免執行腳本的操作風險;利用文件鎖機制和運維中一些規避風險的方法,使得腳本自動執行起來更便捷更安全。
1. 通過規範類腳本的定義,標準常量定義、清晰的註釋、函數和變量大小寫用法,細節中可以看出嚴謹,即使只有幾行,也能體現出一名優秀腳本開發人員的素質。
2. 通過易錯類腳本中的“坑”,使得 shell面向過程的編寫更得心應手,讓腳本規範的同時,邏輯也更嚴謹清晰,避免了錯誤,也提高了腳本的開發效率。
3. 通過運維場景的腳本應用,規避各種開發和執行過程中的風險,使得shell腳本不僅能支持自動化發佈,更可以全面智能化的為運維服務。
閱讀更多 馬哥Linux 的文章