隨著互聯網、云計算需求的爆發(fā)式增長,數據中心的規(guī)模不斷擴大,穩(wěn)定、能耗、占地等問題持續(xù)困擾著數據中心運營者,維護、持續(xù)擴容等新的問題接踵而來。為了應對挑戰(zhàn)數據中心的形式也在不斷的變化。從早期的集中供電集中制冷到分布式供電分布式制冷,從機柜擺放方向的簡單調整到封閉冷/熱通道,從簡單劃分功能區(qū)的數據中心到現在流行的微模塊數據中心。今天我們來了解一下數據中心常規(guī)運維工作的重要性并通過下文介紹熟悉數據中心常規(guī)運維的工作內容。
一、 運維常規(guī)工作重要性

運維工作面臨的挑戰(zhàn)
-
功率密度升高,給運維人員反應的時間更短,管理難度加大。
-
Uptime報告顯示,數據中心超過70%的故障由于人為操作失誤造成。
1、主要故障類型:
1. 磨損所致
-
設備也有生命現象,累計達到某一使用程度之后,就壽終正寢,想修都沒得修,只有更新換代,這一點在高精密的設備上表現的最明顯。
-
設備的磨損可分為有形磨損和無形磨損二種。有形磨損是指:設備在使用過程中發(fā)生的物質磨損或由于環(huán)境自然侵蝕而造成的物理、化學變化。無形磨損是指:由于科學技術的進步,使得設備的使用價值降低,甚至被淘汰。
2. 異常操作所致
-
幾乎所有的設備的動作順序都有嚴格的要求,由不得你隨意操作,不遵守操作規(guī)程,只會直接導致或加速其產生故障。現場管理活動中,未熟練的新人,錯誤的操作、設定,都是損壞設備的最直接的“殺手”。
3. 非法改變其功能所致
-
如果設備在設計上就潛在著該功能的話,那么對其對進行改造,恐怕還無大礙,就怕沒有該項功能,卻硬要強加該功能,這會活活要了設備的“命”。
4. 超負荷使用
-
人停機不停,一天二十四小時連軸轉,一年開足三百六十五天,不壞就不停;不壞就不修,一心急著要翻本,這是“山寨廠”典型的設備使用方法。雖然有的設備在超負荷狀態(tài)下,暫時看不出有什么故障發(fā)生,然而超負荷運轉,卻使設備產生疲勞,老化、磨損進程大大加快,最終導致壽命縮短。
5. 設計上潛在不良因素
-
設計時未能充分研討清楚相關事項,匆匆上馬,導致使用階段故障多多,于是又進行二次補丁設計,三次補丁設計……,遲遲無法定型。這樣的設備,讓人無法放心使用。
6. 維護手法欠佳
-
一流設備,二流操作,三流維護。不把設備當“人”看,只叫干活,不給“飯”吃,連最基本的清潔都不搞,以致小故障逐漸演變成大故障。
浴盆曲線
實踐證明大多數設備的故障率是時間的函數,典型故障曲線稱之為浴盆曲線(Bathtub curve)。曲線的形狀呈兩頭高,中間低,具有明顯的階段性,可劃分為三個階段:早期故障期,偶然故障期,嚴重故障期。浴盆曲線是指產品從投入到報廢為止的整個壽命周期內,其可靠性的變化呈現一定的規(guī)律。如果取產品的失效率作為產品的可靠性特征值,它是以使用時間為橫坐標,以失效率為縱坐標的一條曲線。因該曲線兩頭高,中間低,有些像浴盆,所以稱為“浴盆曲線”。失效率隨使用時間變化分為三個階段:早期失效期、偶然失效期和耗損失效期。

維護的常規(guī)工作
二、工作內容及關系
1、上電調試
關注點:
-
檢查新設備或系統(tǒng)是能否正常上電啟動;檢查擴容后、改造后的設備或系統(tǒng)是否能正常上電啟動,驗證設計的合理性。
-
檢查修復后的設備或系統(tǒng)能否正常上電啟動,檢查設備故障和隱患的處理情況。
-
初始調試配置參數對設備或者系統(tǒng)的穩(wěn)定運行至關重要,參數更改不當,將造成系統(tǒng)無法正常工作,嚴重的甚至損壞系統(tǒng)。
工作安排:
-
涉及人員:專業(yè)工程師(配電等專業(yè))、運維技術經理、設備商工程師。
-
人員職能:根據設備商上電SOP,由專業(yè)工程師或者設備商工程師進行上電啟動。根據設備商操作SOP,由專業(yè)工程師或者設備商工程師進行參數調試。
-
補充說明:
SOP:SOP是Standard Operating Procedure三個單詞中首字母的大寫,即標準作業(yè)流程,就是將某一事件的標準操作步驟和要求以統(tǒng)一的格式描述出來,用來指導和規(guī)范日常的工作。
一體化UPS場景上電調測
-
基本原則:
1. 雙路輸入或雙路供電時,建議先給A路上電,再給B路上電。
2. 給一體化UPS上電,然后給照明、空調上電,再然后給機房管理系統(tǒng)上電,最后給IT負載上電。
-
基本流程:
1. 上電前檢查
2. 系統(tǒng)上電調試

-
操作步驟
步驟1 合上模塊外一體化UPS 前端電源輸入市電空開,給一體化UPS 柜上電,一體化UPS柜上方電源指示燈點亮,上電正常。
步驟2 閉合一體化UPS 輸入空開QF1,等待約2~3 分鐘, MDU 顯示屏啟動。設置語言、時間、網絡參數、系統(tǒng)參數(單并機、電壓頻率、電池容量、單體數量)。
步驟3 確認系統(tǒng)旁路輸入正常,系統(tǒng)由旁路供電,在監(jiān)控顯示模塊中查看系統(tǒng)運行狀態(tài)圖,確認系統(tǒng)是否已經由旁路供電。步驟2 閉合一體化UPS 輸入空開QF1,等待約2~3分鐘, MDU顯示屏啟動。
步驟4 開啟逆變器。
步驟5 逆變器開啟后,一體化UPS 由逆變供電, MDU 中“旁路供電”告警消失,查看系統(tǒng)運行狀態(tài)圖確認系統(tǒng)是否由主路逆變供電。
步驟6 核對實際電池容量與單體數和監(jiān)控界面中設置的值是否一致,用萬用表測試負電池組電壓絕對值與正電池組電壓之和大于一定值( 2×電池單體數),用以檢測電池組連接是否正常。
步驟7 確認電池組已連接好后,閉合電池組輸入空開。
步驟8 (可選)閉合一體化UPS 照明輸出空開,查看交流執(zhí)行器“ PWR”指示燈是否亮起。給照明上電。
步驟9 合上一體化UPS 柜空調空開,給空調上電。
步驟10 依次閉合一體化UPS IT 輸出空開,為對應設備上電。
步驟11 檢查監(jiān)控部分是否上電正常。
-
例行維護
關注點:
-
檢查設備的部件完整性、清潔度和老化程度。
-
記錄設備日常運行過程中參數、告警、日志和狀態(tài),及時更新形成動態(tài)SCP,后期進行評估。
-
通過操作檢查設備的功能、部件運行情況。
-
定期進行設備外、內部的清理。
-
檢查設備、系統(tǒng)及外部環(huán)境是否存在隱患。
工作安排:
-
涉及人員:運維值班員、運維值班班長、專業(yè)工程師、運維技術經理、設備商工程師。
-
人員職能:由運維技術經理編寫或者設備商提供MOP,專業(yè)工程師或設備商工程師根據MOP進行周期性的維護、養(yǎng)護工作;由運維值班班長制定例行維護人員計劃,運維值班員按照計劃進行例行維護巡檢;由運維值班班長刷新SCP數據中心,并形成周期性評估報告。
補充說明:
MOP:MOP是Maintenance Operating Procedure三個單詞中首字母的大寫,即維護作業(yè)流程,對機房關鍵基礎設施設備的每次維護、維修、安裝操作進行制定作業(yè)程序,部分MOP中也會包含SOP。可以要求設備供應商提供MOP的建議,但對于MOP最終確認審核的責任在于運維團隊,批準責任在于運維管理團隊。
-
系統(tǒng)聯調
關注點:
-
查找系統(tǒng)設計、設備性能是否存在影響整體的“短板”。
-
檢測設備安裝是否適應日后的運行維護。
-
檢驗設備安裝和運行質量是否穩(wěn)定可靠等。
工作安排:
涉及人員:專業(yè)工程師(配電等專業(yè))、運維技術經理、運維值班員、運維值班班長、設備商工程師。
基于數據中心項目的最佳實踐,IBM主張采用“五步法”流程對數據中心的基礎設施進行聯調測試。即,
第一步(Level 1)——圖紙資料評審與調試計劃制訂
第二步(Level 2)——工廠驗收測試
第三步(Level 3)——現場檢查
第四步(Level 4)——單系統(tǒng)驗收測試
第五步(Level 5)——綜合系統(tǒng)性能聯動調試驗證
“五步法”流程也是國際公認的數據中心專業(yè)調試驗證工作流程規(guī)范:
第一步(Level 1)——圖紙資料評審與調試計劃制訂
-
調試驗證工作團隊架構與分工
-
圖紙資料所反映的系統(tǒng)是否具備“可測試性”
-
圖紙資料是否已經明確操作順序
-
測試驗證所需資源(人員、時間、能源、負載、儀器)是否落實
-
調試總體計劃的制訂
第二步(Level 2)——工廠驗收測試
-
對電力系統(tǒng)、空調系統(tǒng)的核心設備在出廠前進行性能驗證
-
就測試與驗證發(fā)現的問題在工廠進行整改糾正
-
避免或減少設備故障對現場施工的延誤
-
業(yè)主設備采購合同驗收的重要標志
第三步(Level 3)——現場檢查
-
檢查現場安裝情況與設計圖紙相符。
-
檢查現場電源條件安全可用。
-
檢查現場安全狀況符合運行調試工作的要求。
-
運行調試驗證用的設備設施到場就緒。
第四步(Level 4)——單系統(tǒng)驗收測試
-
設備上電,系統(tǒng)啟動測試。
-
在設計負載水平下測試系統(tǒng)功能,空調系統(tǒng)負荷不低于30%,電力系統(tǒng)負荷不少于單臺設備的額定容量。
-
在各冗余系統(tǒng)內驗證故障切換模式。
-
在各系統(tǒng)的計量點、控制點和數據收集點進行驗證校準。
-
記錄備案測試結果與系統(tǒng)效率。
第五步(Level 5)——綜合系統(tǒng)性能聯動調試驗證
-
模擬電、水等外部資源供應中斷,檢驗系統(tǒng)響應與切換模式。
-
空調系統(tǒng)熱負荷模擬測試,空調系統(tǒng)負荷從0逐步增加到100%,檢驗空調系統(tǒng)各部分的性能。
-
系統(tǒng)集成測試,綜合測試電氣、空調、消防與智能化控制等多個系統(tǒng)的接口性能。
-
在設計滿負載下進行多系統(tǒng)連續(xù)運轉(一般不少于12小時)測試,檢驗系統(tǒng)的穩(wěn)定性。
-
記錄備案測試結果與系統(tǒng)效率。
-
故障處理
關注點:
-
故障應急預案,執(zhí)行冗余方案盡快恢復業(yè)務或保證業(yè)務不中斷。
-
故障清除處理,根除故障并行政討論小組研討根源問題,并形成解決方案(如擴容、改造、優(yōu)化等)。
工作安排:
-
涉及人員:專業(yè)工程師(配電等專業(yè))、運維技術經理、設備商工程師。
-
人員職能:根據運維技術經理和設備工程師編制EOP,并在故障發(fā)生期間由專業(yè)工程師或者設備商工程師按照EOP進行故障應急預案操作。后期根據SOP進行設備系統(tǒng)故障清除處理。
補充說明:
EOP:EOP是Emergency Operating Procedure三個單詞中首字母的大寫,即應急作業(yè)流程,突發(fā)設備或者系統(tǒng)故障時,為保證業(yè)務不中斷或者恢復業(yè)務而啟動冗余或備用系統(tǒng)而需要執(zhí)行的操作流程。


部件更換
關注點:
-
達到使用壽命的設備系統(tǒng)部件,通過更換恢復設備系統(tǒng)正常運行。
-
存在隱患、發(fā)生故障的設備系統(tǒng)部件,通過更換恢復設備系統(tǒng)正常運行。
工作安排:
-
涉及人員:專業(yè)工程師(配電等專業(yè))、運維技術經理、設備商工程師。
-
人員職能:根據運維技術經理和設備工程師根據SOP更換設備系統(tǒng)部件。
更換一體化配電柜&精密配電柜MCB
操作步驟
步驟1 打開配電柜前門,將配電柜輸入、輸出開關切換到OFF 狀態(tài),且上下級開關也斷開。
步驟2 拆卸配電柜面板上的螺釘保留好備用,并取下面板。
步驟3 拆卸MCB 左右兩端的線纜。
步驟4 用一字螺絲刀將MCB 黑色卡扣件向外撥動,如圖所示,然后將MCB 沿配電柜內側方向拆卸。
步驟5 將新的MCB 裝上。
步驟6 連接線纜。MCB 線纜推薦接線孔位如所示。
步驟7 將面板重新裝回配電柜。
結束。