<noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"><delect id="ixm7d"></delect></rt><delect id="ixm7d"></delect><bdo id="ixm7d"></bdo><rt id="ixm7d"></rt><bdo id="ixm7d"></bdo><noframes id="ixm7d"><rt id="ixm7d"><rt id="ixm7d"></rt></rt><rt id="ixm7d"><rt id="ixm7d"></rt></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt> <noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><noframes id="ixm7d"><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d"><rt id="ixm7d"></rt><noframes id="ixm7d">

數據中心機房應急預案

2023-04-01

第一篇:數據中心機房應急預案

中心機房應急預案

一、系統故障應急流程

1.1 系統故障應急流程說明

一、故障發生

值班人員可從以下途徑得知故障的發生: 1)值班人員通過報警系統告警發現故障 2)值班人員通過遠程數據監測發現故障 3)值班人員通過維護巡檢發現故障 4)系統用戶發現故障,報給呼叫值班人員

二、報障受理

值班人員發現系統故障發生后,立即響應,根據級別進行應急處理,并向相關領導報告系統故障情況。

三、信息研判

值班人員根據了解到的系統故障情況進行分析判斷,以確定采用一般故障處理流程還是立即啟動系統突發故障應急處理預案。

四、預案啟動

如需啟動應急預案,則立刻通知相關領導小組,由相關領導小組啟動應急預案,對系統突發故障應急事件進行全面管控處理。

五、資源確認

系統突發故障應急預案啟動后,首先是根據現場突發故障實際狀況、緊急程度、技術難度、備品備件等情況對相關資源(主要是參與人員)依據經驗進行調度和確認,主要有以下資源:

本單位相關技術支持人員 授權第三方公司技術支持人員; 故障設備相關廠家技術支持人員; 聘請的技術專家

六、預案執行

按照既定的預案進行突發事件處理和故障搶修,如遇到問題及時向相關領導小組匯報。

七、預案終止

預案的終止時間由故障現場技術人員根據現場的實際進展情況,在與用戶單位有關部門協調后相關領導小組決定。

八、結果上報

預案中止后,相關預案參與人員將整個事件過程中所有收發信息、領導批示、事故調查報告、現場錄像、圖片等材料及時整理歸檔,并總結事件處理過程中的經驗和教訓,修改、完善事件應急預案。然后集中上報至相關領導小組。

1.2 系統故障應急處理流程圖

機房應急預案

3.1 機房漏水應急預案

(1)發生機房漏水時,第一目擊者應立即檢測漏水影響范圍,并及時報告相關領導小組。

(2)若空調系統出現滲漏水,值班人員應立即安排停用故障空調,清除機房積水,并及時聯系設備供應方處理,同時啟動備用空調,必要情況下可其它方式(通風、冰塊降溫等)對服務器進行降溫。

(3)若為墻體或窗戶滲漏水,值班人員應立即采取有效措施確保機房安全,同時安排通知房屋產權方 ,及時清除積水,維修墻體或窗戶,消除 滲漏水隱患。

3.2 設備發生被盜或人為損害事件應急預案

(1)發生設備被盜或人為損害設備情況時,使用者或管理者應立即報告相關領導小組,同時保護好現場。

(2)相關領導小組接報后,通知用戶保衛部門、相關領導,一同核實審定現場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。

(3)值班人員應當積極配合公安部門進行調查, 并將有關情況向相關領導小組匯報。 (4)相關領導小組安排相關技術人員及時恢復系統正常運行,并對事件進行調查。值班人員應在調查結束后三日內書面報告相關領導小組。

3.3 機房長時間停電應急預案

(1)接到長時間停電通知后,值班人員應及時通過辦公系統、電話等發布相關信息,部署應對具體措施,要求相關保障人員在停電前及時就位,檢查業務系統、保存數據。

(2)停電時間過長的,應準備充足燃油,并準備租用電力公司發電車協助,保證系統正常運轉。 3.4 通信網絡故障應急預案

(1)發生通信線路中斷、路由故障、流量異常、業務系統故障后,操作員應及時通知本單位相關系統管理員,經初步判斷后及時上報值班人員和相關領導小組。

(2) 值班人員接報告后,應及時查清通信網絡故障位置,隔離故障區域,并將事態及時報告相關領導小組,通知相關通信網絡運營商查清原因;同時及時組織相關技術人員檢測故障區域,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。

(3) 事態或后果嚴重的,應及時向相關領導匯報。

(4)應急處置結束后,值班人員應將故障分析報告,在調查結束后三日內書面報告相關領導小組。

3.5 不良信息和網絡病毒事件應急預案

(1)發現不良信息或網絡病毒時,信息系統管理員應立即斷開網線,終止不良信息或網絡病毒傳播,并報告相關系統維護人員和相關領導小組。

(2)值班人員應根據相關領導小組指令,采取隔離網絡等措施,及時殺毒或清除不良信息,并追查不良信息來源。

(3)事態或后果嚴重的,應向總公司相關領導匯報。

(4)處置結束后 ,值班人員應將事發經過、造成影響、處置結果在調查工作結束后三日內書面報告相關領導小組。

3.6 服務器軟件系統故障應急預案

(1)發生服務器軟件系統故障后,值班人員應立即組織啟動備份服務器系統,由備份服務器接管業務應用,并及時報告相關領導小組;同時安排相關責任人將故障服務器脫離網絡,保存系統狀態不變,取出系統鏡像備份磁盤,保持原始數據。

(2)值班人員應根據相關領導小組的指令,在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;若重啟失敗,立即聯系相關廠商和上級單位,請求技術支援,作好技術處理。 (3)事態或后果嚴重的,總公司相關領導匯報。

(4)處置結束后,值班人員應將事發經過、處置結果等在調查工作結束后三日內報告相關領導小組。

3.7 黑客攻擊事件應急預案

(1)當發現網絡被非法入侵、業務內容被篡改,應用服務器上的數據被非法拷貝、修改、刪除,或通過入侵檢測系統發現有黑客正在進行攻擊時,使用者或管理者應斷開網絡,并立即報告相關領導小組。

(2)接報告后,相關領導小組應立即指令相關技術人員核實情況,關閉服務器或系統,修改防火墻和路由器的過濾規則,封鎖或刪除被攻破的登陸帳號,阻斷可疑用戶進入網絡的通道。

(3)值班人員應及時清理系統,恢復數據、程序,恢復系統和網絡正常;情況嚴重的,應向總公司相關領導匯報,并請求支援。

(4)處置結束后 ,值班人員應將事發經過、處置結果等在調查工作結束后三日內報告相關領導小組。

3.8 核心設備硬件故障應急預案

(1)發生核心設備硬件故障后,值班人員應及時報告相關領導小組,并組織查找、確定故障設備及故障原因,進行先期處置。

(2)若故障設備在短時間內無法修復值班人員應啟動備份設備,保持系統正常運行;將故障設備脫離網絡,進行故障排除工作。

(3)值班人員故障排除后,在網絡空閑時期,替換備用設備;若故障仍然存在,立即聯系相關廠商,認真填寫設備故障報告單備查。

(4)事態或后果嚴重的,應向總公司相關領導匯報。

3.9 業務數據損壞應急預案

(1) 發生業務數據損壞時,值班人員應及時報告相關領導小組,檢查、備份業務系統當前數據。 (2)值班人員負責調用備份服務器備份數據,若備份數據損壞,則調用磁帶機中歷史備份數據,若磁帶機數據仍不可用,則調用異地備份數據。

(3)業務數據損壞事件超過 X小時后,維護小組應及時報告相關領導,及時通知業務部門以其它方式開展業務。

(4)值班人員應待業務數據系統恢復后,檢查歷史數據和當前數據的差別,由相關系統業務員補錄數據;重新備份數據,并寫出故障分析報告,在調查工作結束后三日內報告相關領導。

3.10 雷擊事故應急預案

(1) 遇雷暴天氣或接上級部門雷暴氣象預警,值班人員應及時報告相關領導,經請示同意后關閉部分服務器,切斷電源,暫停內部計算機部分網絡工作。

(2) 雷暴天氣結束后,值班人員報經相關領導小組同意,及時開通服務器,恢復停用的計算機網絡工作,對設備和數據進行檢查。

(3) 因雷擊造成損失的,值班人員應會同相關部門進行核實、報損,并在調查工作結束后三日內書面報告相關領導小組。必要時,應向總公司相關領導匯報。

四、機房動力系統應急處理方案

在機房動力發生異常情況時,動力系統通??勺詣忧袚Q由備用電池提供機房設備的動力,在發生重大事故或自然災害而無法短時間內正?;謴蜋C房動力的情況下,啟動機房動力系統應急處理流程,采用應急油機發電,確保用戶單位網點通信網絡能夠安全、高效和可靠地運行。具體流程見下圖: 監控到機房動力異常告警 通知維護站赴現場,監視動力系統電壓下降情況 停電時間超過備用電池的合適支撐時間? 否 是 通知相關部門協助排查動力系統故障 超過蓄電池允許放電電壓,立即啟動油機發電 動力恢復 關閉油機供電開關 關閉電源柜油機開關 關閉/拆除油機 市電供電/蓄電池充電正常 消障

當發生長時間停電的動力系統故障時,搶修人員在機房現場實時測試記錄備用電池的放電情況,電池放電容量超過40%時,如果動力系統還沒有恢復正常供電,就用油機發電為機房提供動力。

動力系統恢復后立即對電池進行均充。一天內發生多次停電,放電容量在50%以下,均充轉浮充后,浮充時間不少于24小時。一次停電放電容量在50%~80%時,均充轉浮充后,浮充時間不少于48小時。

第二篇:中心機房突發停電應急預案

為更好的應對機房停電此類突發事件,提高處理各類停電事件的能力,建立健全可靠的應急機制,最大限度地降低各類停電事件對院內各部門的影響,特制定大吳家衛生院機房停電事件應急預案(以下簡稱預案)。 一:工作原則

(1)預防為主。立足安全防護,加強預警,重點保護公司重要系統信息,數據安全。 (2)快速反應。發生突發事件時,及時獲取充分而準確的信息,迅速處置,最大程度地減少突發事件影響。

(3)堅持“統一領導、協調配合、明確責任、堅守崗位”的原則。 二:適用范圍

所有機房臨時停電,突發停電以及較長時間停電的事件。 三:組織機構及職責

(1)組織機構(聯系人名單及聯系方式每半年更新一次) 規劃運營:主要聯系人及聯系方式(附聯系人名單) (2)各組織機構職責

1).規劃運營部門應盡可能及時通知所有部門停電信息,且準備好應急措施。

2).各部門應及時做好停電應急措施,通知各相關科室做好重要數據備份,并通知到機房管理人員,同時做好拉閘限電的準備。為保障停電期間和恢復供電后機房所有設備正常運行,所有相關人員在此期間必須保持隨時待命狀態。

3).機房設備供應商應做好相關設備技術支持工作,若是計劃內停電,應提前對機房設備做好停電應急方案,且在停電至恢復供電,所有設備恢復正常期間保持隨時待命狀態,重要關鍵設備,須有技術支持人員現場侯命;突發臨時停電應盡可能做好遠程技術支持工作。 四:具體操作

第一條:機房意外停電后,首先確定停電的范圍以及受影響的設備范圍。

第二條:確認停電的范圍為本機房或本院,應立即打后勤管理處電話匯報。估算電力可能恢復的時間,并通知網絡中心領導。

第三條:如果確認停電的時間在1個小時內,可以在UPS正常供電的時間內,等到電力恢復。如果不能確認在2個小時內恢復供電,立即匯報給機房電源維護負責人和中心機房各設備的負責任到達現場。做好各設備的電源停電準備,在UPS供電達1.5個小時后,嚴格按操作手冊停掉存儲和各應用服務器的電源,最后停核心交換機和路由器。等待電力恢復,電力恢復供電后轉第七條執行。如果確認停電的范圍僅在于本機房電源故障,立即匯報給機房電源維護負責人。

第四條:機房維護負責人將掉電的電源柜總空開和分空開的狀態處于下電狀態。并向主管領導匯報。

第五條:將掉電的所有的設備電源狀態處于下電狀態,以防止電源柜加電對設備的沖擊。 第六條:電力室恢復供電后,先不要急于給電源柜加電,等待10—20 分鐘后,再開始給電源柜加電,以防止供電不穩或再次掉電。

第七條:供電正常后,確定設備處于下電狀態后,打開電力柜的總控開。 第八條:根據設備加電順序,啟動分項空開。

第九條:設備加電順序,IP 交換機和SAN 交換機正常后再給存儲加電,存儲狀態檢查正常后,啟動主機(以上各設備務必按操作手冊的啟動順序上電)。

第十條:設備啟動正常后,開始啟動數據庫。

第十二條:數據庫啟動正常后,開始啟動中間件服務器。

第十一條:中間件服務器正常后,啟動應用程序。

第三篇:機房應急預案

主機運維應急預案簡介

. 崔志昂 上海超級計算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超級計算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能計算技術及應用水平已成為顯示綜合國力的一種標志。高性能計算機持續不間斷地 為用戶提供高性能計算服務,而運維應急預案是主機運行中處理突發事件的依據和方法,是主

機系統穩定運行的保障。本文簡要介紹上海超級計算中心主機運維應急預案,供同行參考。

1. 主機和運維管理制度簡介

超級計算機是功能最強、運算速度最快、存

儲容量最大的一類計算機。目前只有少數國家掌握 研發技術,系統造價非常昂貴,多用于國家高科技 領域和尖端技術研究,是國家科技發展水平和綜合 國力的重要標志。上海超級計算中心作為上海信息 港主體工程之一,國家和上海市政府投資先后引 進神威-I超級計算機、神威-64P集群計算機、曙光 4000A超級計算機系統并投入商業化運行。

上海超級計算中心自2001年正式開通至今,

這些高性能計算機系統已安全、穩定運行七年多時 間,上機用戶取得了豐碩的科研成果和社會效益。 在這七年中,為保障這些高性能計算機系統安全、 穩定、不間斷地運行,技術支持部在中心引進第一 臺高性能計算機--神威-I超級計算機系統的同時,建 立了機房應急預案、運行記錄、設備運行參數等基 礎運維制度,在二期引進曙光4000A超級計算機系統 過程中,不斷完善原有運維制度,并針對該主機系 統特點編寫了大量操作方法和應急預案。

中心自2006年獲得ISO27001(BS7799)信息安 全認證以來,技術支持部根據其要求規范了文檔體 系建設,形成了機房管理制度、應急預案、操作方 法、運行情況記錄的四大類運維文檔。

正是這些運維管理制度的不斷完善和有效執 行,才確保了資產價值高、服務對象廣、社會影 響大的中心主機系統安全、穩定運行,保障重點項 目、用戶服務的連續性。

2. 應急預案重要性

上海超級計算中心機房運維管理文檔劃分為機 房管理制度、應急預案、操作方法、運行記錄共四 大類(如圖1所示)。

圖1 應急預案分類

應急預案在應急系統中起著關鍵作用,它明確 了在突發緊急情況發生之前、發生過程中以及剛剛 結束之后,誰負責做什么、何時做,以及相應的策 略和資源準備等。它是針對可能發生的重大事故, 按照其影響和后果嚴重程度,在應急準備、響應、 操作各個方面預先做出的詳細安排,是開展及時、 有序和有效事故應急工作的行動指南。因此,應急 預案在這四類運維管理文檔中處于最為重要的地位。

3. 應急預案分類

應急預案按重要性和事件種類,可以劃分為消

防預案、斷電預案、空調預案、其他預案共4種,預 案各文檔之間彼此獨立又互為關聯,具有非常強的 可操作性。制定預案的指導原則是盡一切可能,最 大限度地確保向用戶提供的服務不中斷。在緊急事 件發生的情況下,保證核心設備連續運行,避免存 儲數據丟失。在事件處置完成后,能快速恢復高性 能計算服務。

3.1 消防預案

消防預案是主機房最重要的應急預案。該類預 案根據《上海超級計算中心滅火和應急疏散預案》 的原則并結合主機房主機設備和消防設備的運行特 性而制定。主要由《主機房消防應急預案》和《主 機房氣體噴淋消防系統啟動撤離及處置應急預案》 2個文檔組成。

消防應急預案:該預案著重規范了火警事件發 生后,所有主機維護人員如何根據所屬區域和現場 情況,判斷和選擇正確的處理方法,同時配合中心 物業人員處置,降低事件帶來的影響。

對于設備發生煙霧,主機維護人員協同物業人 員尋找煙霧點予以切斷相關區域電源;當設備發生 可以控制火情,協同物業人員滅火;當主機房發生 火災而無法控制,應采取施救方法等措施。

氣體噴淋預案:該預案描述主機房氣體噴淋系統啟

動的響應和確認并具體規定了撤離機房路線、善后處置。

這兩個預案中,消防應急預案作為消防預案

的主體,涉及到如何處理與消防有關情況的各個方 面。氣體噴淋預案是主機房發生重大火災時應對的 最終滅火手段和人員撤離引導方法。

3.2 斷電預案

斷電預案的重要性僅次于消防預案。該類預

案根據中心供配電系統實際情況和各種斷電影響范 圍下對主機運行的最小保障要求而制定的。主要由

《主機房斷電應急預案》、《曙光4000A超級計算機 系統緊急關機操作方法》、《曙光4000A超級計算機 系統雙路斷電關機操作方法》等多個文檔組成。

主機房斷電應急預案:該預案用于斷電情況

下,主機維護人員如何與中心物業部門聯系控制主 機房供電情況,并且負責對主機系統運行受斷電影 響程度做出正確判斷。指導維護人員按影響程度, 分別選用預案中對應的操作方法。本預案在所有斷 電預案中起指導思想作用。 緊急關機操作方法:該預案制定了主機系統在 緊急情況下,最快速度關機的操作步驟。主要用于 發生煙霧、明火或消防、斷電預案需在數分鐘內關 機斷電的事件。

雙路斷電關機操作方法:該緊急操作預案主要 用于在外界雙路供電全部中斷情況下的操作。

該預案的關機原則是:根據實際電力供應考慮 操作步驟,寧慢勿快,在時間允許的情況下,最大 程度保證存儲節點、SAN和SCSI存儲設備、工程用戶 的計算節點的運行,盡可能減少關閉范圍,以確保 能在恢復供電的情況下,主機盡快恢復正常運行狀 態,減少影響范圍。

3.3 空調預案

超級計算機系統在運行中消耗大量電能,在

提供高性能的計算能力同時產生大量的熱量,必須 采用專用空調系統,以保持主機系統適當的溫、濕 度、空氣潔凈度等運行環境需求。因此,專用空調 系統與主機系統密切相關,空調預案是主機房必備 的應急預案。

制定該預案的原因在于,斷電情況下,空調與 主機系統存在互相牽制的現狀。主機和空調系統均 為外界雙路供電,主機系統配有UPS不間斷電源系 統,而空調系統無UPS支持。在雙路停電情況下,主 機系統可獲得UPS電池組支持運行若干分鐘,空調系 統無UPS支持只能停機。由于在無空調冷卻情況下, 主機系統會在短時間內積聚大量熱量導致超過運行 警戒溫度,主機系統在有可供電余量的情況下,仍 將被迫關機。因此,確??照{中斷情況下的主機運 行環境是該預案的制定原則。

預案根據各臺主機配備的空調系統特點制定, 由《曙光機房空調系統故障應急預案》和《神威機 房空調系統應急預案》2個文檔組成,這里僅介紹曙 光機房空調系統應急預案。

該預案的第一步:考慮增強主機系統散熱效

果,采用打開主機機柜前后門,和機房周邊木門, 在通風道上布置有UPS支持的應急風扇,形成空氣對 流,帶走熱空氣,從而增強主機系統散熱效果,降 低升溫速度。

該預案的第二步:在采取上述措施并持續升溫 到一定溫度之上的情況下,考慮緊急關閉部分或全 部計算節點,減少熱量生成,確保主機系統的核心 存儲和網絡系統不受影響,確??照{系統修復后, 主機系統能快速恢復運行。

3.4 其他預案

除了固定的三類預案之外,技術支持部還根據 主機系統實際運行中出現的各種意外情況,隨時制 定具有針對性的預案。

如《大樓頂棚坍塌應急操作方法》的制定,就

是由于2008年1月連續發生雨雪等災害性天氣,中心 大樓頂棚大量積雪且難融化,物業預計存在情況繼 續惡化,有發生頂棚坍塌事故的可能,一旦發生將 影響一樓主機運行。

針對該突發的隱患,中心技術支持部制定應急 操作方法,對維護巡查頻度范圍、漏水可能發生位 置、如何處理受漏水影響的主機設備等操作步驟進 行嚴格界定。即使在最后,中心大樓頂棚經受住災 害性天氣的考驗,該預案并未發揮作用,這正體現 了應急預案的備而不用的特點。而且通過各種意外

情況的迅速分析、應對和實踐操練,不斷鍛煉主機 維護隊伍,使之走向成熟。

4. 在實際案例中,應急預案的作用

在主機系統年復一年的運行中,我們希望這些 設備正常穩定運行,應急預案永遠不會被使用,然 而在實際運行中,總免不了因突發事件執行應急預 案。

而每次突發事件是檢驗應急預案制定是否科 學、有效的最好證明。

4.1 雙路斷電,UPS正常運行案例

2006年8月某天,因打雷導致供電一路跳閘自動 換至另一路供電,曙光機房2臺空調掉電。

主機維護人員立即按應急預案操作,電話通知 物業人員恢復空調運行,恢復過程中所有空調相繼 出現高溫報警,機柜液晶屏平均溫度35度,開啟全 部曙光機柜前后門,打開神威-曙光玻璃門并調集應 急電扇,于12:45恢復正常。

12:50再次出現雙路供電中斷,曙光空調因無

UPS支撐全部斷電,啟動斷電應急預案,開啟

5、6號 木門,開啟神威機房全部空調,布置電扇,將冷氣 導入曙光機房,熱量從6號木門的外部通道排出,選 擇性殺除部分作業,至13:05供電恢復,曙光空調開 始工作,13:20環境恢復正常。全機在此過程中,正 常運行未停機,只損失了部分不重要的作業。

4.2 單路斷電,UPS失效案例

2007年8月某天,因低壓配電柜開關至UPS房間 X-JM柜電纜發生相對地短路,造成UPS機組逆變器 自身保護動作,關閉UPS機組,導致曙光主機系統失 電。

全機掉電后,主機維護人員迅速按應急預案

手 工 關 閉 所 有 電 源 開 關 。1 0 : 3 0恢 復 供 電 ,溫濕度恢復正常后,全機加電,恢復過程中修復

storage00

1、00

5、010三個盤陣的9個用戶文件系統, 修復15個節點加電故障,除cnode00

9、anode029電源

環 境 模塊故障,于當日15:10全機系統恢復正常。

由于處置及時,主機受影響范圍很小,在恢復 供電后數小時即成功開啟全系統。

5. 隨時保持應急預案的適用性

主機長年累月的運行,故障和問題的發生,往 往是必然的,也是客觀、無法回避的。因此,要求 在維護工作中,預先考慮到可能的問題和故障,制 定完善的應急預案。應急預案不可能包含所有的故 障和問題,但應根據維護經驗,盡可能地設想各種 危機情況下的處置措施。做到預想到各種可能的問 題。

而在形成應急預案后,更重要的是持續地在

運行中加以完善、測試和演練,盡可能模擬實際情 況,做到即使只有1名維護人員在場,也能在真正發 生危機時,以最短時間獨立處置故障。

以目前中心的主機運維工作為例,三年內,僅 斷電預案就已根據實際運行情況的變化,制定并更 新了5~6個版本,針對夏季突發斷電也有專用預案。 這樣的措施,直接保障了2006年8月突發斷電事件中 的主機連續運行。而2007年8月的突發斷電事件中, 由于預案在之前剛根據實際情況進行過演練和修 改,主機維護人員僅用半小時就完成所有應急操作 動作,整機僅有個別設備故障,確保了主機設備未 因突發斷電而發生大范圍損壞現象,恢復供電后直 接完成開機。

實踐證明,完善而適用的應急預案能保障向用 戶提供穩定的高性能計算服務。

6. 結束語

完備而適用的應急預案能有效降低主機系統因 意外事件發生帶來的運行風險,對可能發生的意外 來說,是一種事前防范措施。但對整個主機系統產 品而言,是一種事后防范措施。如果主機系統生產 廠商能把這些防范措施納入整個系統設計過程中, 使操作方法更加簡便、更趨于人性化,這將幫助主 機維護人員更為妥善處理意外事件,用戶得到更為 穩定的高性能計算服務。我們相信未來國產的高性 能計算機能做到這一點,期待著這一天早日到來。

(為幫助了解,特在附錄中節選部分雙路斷電關機預案內容)

附錄:《曙光4000A超級計算機系統雙路斷電關機操作方法》(省略具體操作步驟)

曙光4000A超級計算機系統雙路斷電關機操作方法

注意:

1、本方法專用于主機房發生雙路同時斷電緊急操作使用。(包括單線斷電切換失敗)。

2、本方法作為《曙光-4000A超級計算機系統緊急關機操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 斷電確認及操作:

主機房內一旦發現斷電,并接物業明確通知為雙路斷電,首先執行如下操作(即確保節點溫度):

1.1 打開機房門便于散熱,..

1.2 機房通道上布置應急風扇加強冷熱空氣對流,夏季:應急風扇布置..;冬季:應急風扇布置..,使曙光

機房的溫度盡量降低。

1.3 打開所有機柜前、后門。

1.4 密切注意機房節點平均溫度(專指各機柜液晶面板所示之環境溫度值)。

2. 緊急關機條件確認:

在完成上述操作后,密切觀察主機房環境。一旦有如下任何一個條件滿足:

2.1 自斷電發生起,已達到XX分鐘仍未恢復供電;

2.2 采取上述緊急通風措施,節點溫度持續上升,超過XX℃;

可認定為緊急斷電事件,即刻按下列緊急關機操作方法進行操作。

3. 緊急關機操作步驟:

注意事項:

3.1 ..

3.2 關機操作的全過程中,注意隨時保持和物業的通訊聯系。除根據情況隨時聯絡外,應嚴格保證每XX分鐘與物

業聯系一次,詢問UPS可支撐時間及恢復供電可能。(分機、手機、對講機等)

3.3 應理解關機原則為:根據實際電力供應考慮操作步驟,寧慢勿快,在時間允許的情況下,最大程度保證X排節

點、存儲節點、SAN和SCSI存儲設備的運行,盡可能減少關閉范圍,以確?;謴?。

第一級操作:(首先執行) 關閉主機系統外圍設備..

第二級操作:(完成上述操作后,當再次發現UPS電池低于XX分鐘或節點平均溫度超過XX℃,任一條件滿足, 執行如下操作)

關閉非重要用戶計算節點(ABC組)..

第三級操作:(完成上述操作后,當再次發現UPS電池低于XX分鐘或節點平均溫度超過XX℃,任一條件滿足, 執行如下操作)

關閉所有用戶計算節點(D組)..

第四級操作:(完成上述操作后,當再次發現UPS電池低于XX分鐘或節點平均溫度超過XX℃,任一條件滿足, 執行如下操作)

關閉SAN存儲設備和LSF數據庫服務器..

第五級操作:(完成上述操作后,當再次發現UPS電池低于XX分鐘或節點平均溫度超過XX℃,任一條件滿足, 完成關機操作)

關閉SCSI磁盤陣列和所有存儲節點..

特別關注:

1. 如時間非常緊急,UPS電池低于XX分鐘:

直接執行關機腳本:..

此腳本可分別將計算節點、接入節點、存儲節點進行關閉。

2. 如時間極其緊急,UPS電池低于XX分鐘,可按《曙光-4000A超級計算機系統緊急關機操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉閘操作。

(上述二個方法僅用于突發情況,非極其必要情況下嚴禁使用,應使用前列方法操作)

3. 如遇主機失電(如關機操作不及已掉電或突發自動掉電)應關閉所涉范圍所有設備電閘開關。..

第四篇:機房應急預案

應急處置方案

第一節 總 則

1、保證人員和財產的安全為前提的原則:在由于火災或電力問題造成的主機故障,在解決故障前,應以保證人員的生命安全和財產的安全為前提,然后進行故障的解決。

2、最快時間恢復業務的原則:本著先想盡一切方法,盡快恢復業務的原則來處理故障,如在有備用設備的情況下,主設備產生了故障,應先盡快將應用切換到備用機上,使業務能夠運行,再對故障設備進行診斷和維修。

3、故障應急人員高度負責的原則:當故障應急人員在節假日接到故障通知時,本著高度負責的態度,應迅速接手處理障礙,如遠程無法處理解決,應迅速趕到故障設備所在地,進行現場處理,處理故障的同時應及時向領導匯報。應急人員不可互相推卸責任,如因特殊情況,確實無法處理障礙,部門領導必須安排好其他人員處理。

4、盡可能全面的保留故障現場的原則:當故障發生后,應急人員應盡可能全面的備份出能夠反映故障現象的各種日志、記錄、受損文件等,便于業務恢復后,對故障的分析、解決,杜絕故障的再次發生。

應急方案的目標:保證預付卡運營系統連續安全穩定地運行。

第二節 應急領導小組

應急領導小組成員:

組 長: 副組長: 成 員:

第三節 電源系統故障應急處理

定期檢查信息中心機房電源設備的運行狀況,當發生下列突發事件時,按以下方案進行處置:

當中心機房發生市電供電突然停電或遠程報警電源異常時。首先確認是否為正常停電及預計停電時間。檢查不間斷電源的電池可供電時間,需在不間斷電源供電時效內關閉所有服務器及網絡設備。

聯系工程部查看停電原因,盡快恢復供電,并將情況報告相關領導

工程部聯系電話:

第四節 空調系統故障應急處理

定期對空調的運行情況進行檢查,如有報警信息,應及時查找故障原因,對于不能自行排除的問題,應及時與設備提供商進行聯系。

當中心機房主空調因故障無法制冷,致使機房內環境溫度超過攝氏40度時,打開機房房門,并關閉所有服務器及網絡設備。 對于無法自行處置的空調系統異常情況,及時與設備提供商聯系,并報告公司領導。 空調問題聯系人:

第五節 中心機房自動消防系統應急處理

當中心機房發生火警時,按以下方案進行處置:

1.上班工作時間發生火警,聽到自動消防系統發出的聲光報警后,中心機房附近辦公室人員應及時緊急撤離,避免氣體自動消防系統啟動后,消防氣體對附近人員造成人身傷害。確認火警后,立刻撥打119報警,并說明盡量使用氣體滅火器進行滅火,減少電子設備的損壞。

2.發生火警后,信息中心相關人員應馬上趕赴現場,并向有關領導報告事故情況。同時立即聯系聯通等相關公司,及時評估事故損失情況,研討盡快恢復信息系統正常運行的最佳方案。 安保消防中控電話:

第六節 設備、網絡系統故障應急處理

設備、網絡應用系統故障應由發現人通知技術部,技術部門立即檢查故障,進行初步故障定位,解決;

1.網絡設備、服務器、儲存設備均有備份,當設備存在硬件問題時,可隨時把業務切換到備份主機上,保證業務正常運行; 2.應用系統每更新一次則做一次遠程備份,在遠程主機上分別備份舊的應用系統和更新后的應用系統,以當天的更新日期命名; 3.對磁盤柜上的數據庫文件有定時任務,每天凌晨4:00會把數據庫里的數據文件倒出到遠程備份主機上,以確保磁盤柜出現硬件故障的時候,數據文件不丟失;對于網絡、應用系統出現硬件方面的故障,比較嚴重的問題,對業務的正常運行造成較大的影響,立即向有關領導報告。

4、網絡中有監控服務器,運用Cacti v10最新的版本,監控網絡所有設備(路由器,防火墻,交換機以及服務器設備);對設備本身的硬件檢測、外部入侵檢測、外部攻擊等多種對系統不利因素以發送mail的形式報警;相關人員收到報警信息,分析收到的log日志以做出相應的處理。

5、每周周五對網絡設備進行日志及配置文件采集,對數據庫數據文件定期下載,和遠程備份;在本地電腦上保存最近的配置文件,以便在發生毀滅性的災難時,用來重組。

對簡單故障,運維人員應迅速排除故障,解決問題并記錄。如果需要更換設備,應上報有關領導,經批準后馬上更換故障設備,盡快恢復網絡、應用系統運行。運維部門判斷無法及時修理時,應立即通知相關的系統運行服務提供商,在最短的時間內安排修理或更換系統。

如發現屬外部線路的問題,應與線路服務提供商聯系,敦促對方盡快恢復故障線路。

啟用備份線路、設備、系統,迅速恢復相關的應用。

聯通聯系電話:

第七節 黑客入侵的應急處理

發現網絡上有黑客攻擊行為,任何人員都有義務向技術部門報告。技術部立即啟動應急響應,切斷受攻擊計算機與網絡的連接,停止一切操作、保護現場,并上報有關領導。

對于黑客攻擊,由計算中心組織應急響應專家小組查找入侵蹤跡,分析入侵方式和原因。由安全管理員根據對入侵事件的分析,組織相關人員對內部網計算機整改,防止黑客用同樣的手段再次入侵其他系統。安全管理員檢查確定無安全隱患后,才可將受攻擊計算機重新連接網絡,或啟用備份計算機來恢復應用。

安全管理員應做好記錄,保護現場,進行日志收集等工作。如果能追查到攻擊者的相關信息,可以對其發出警告,必要時可以采取進一步的行動,乃至采取法律手段。根據破壞程度,經有關領導同意后,上報公安部門。

若系統已被黑客破壞,無法恢復,應將受黑客攻擊的計算機上的重要數據備份到其他存儲介質,確保計算機內重要的數據不丟失。如果數據無法恢復,經有關領導同意后,可與國家指定的部門聯系,由他們來協助恢復,為保證數據信息安全,需在安全管理部門作記錄。

第八節 生產系統、數據庫故障處理

生產系統出現故障,技術部做出應急處理

1.因軟件設計缺陷、設計漏洞等引起的故障,通知公司研發部門在2小時內查明原因,解決問題。

2.數據庫出現故障,運維人員應在2小時內查清故障原因,其他相關部門應積極配合,解決問題。

3.如出現數據丟失情況,確認不能自行恢復后,啟用備份恢復數據,24小時內恢復運營。

本方案自發布之日起施行

第五篇:機房消防應急預案

為確保機房安全與穩定,以保證正常運行為宗旨,按照“預防為主,積極處置”的原則,本著建立一個有效處置突發事件,建立統一指揮、職責明確運轉有序、反應迅速處置有力的機房安全體系的目標,特制定本預案。

一、適用范圍

本預案適用于機房存在的重大火災隱患和因各種原因發生的火災事件等。

二、組織領導

為防止發生重大火災事件時出現混亂局面,使滅火工作及時得到有組織、有步驟的進行,根據實際情況成立機房消防應急指揮小組。組長: ;副組長: ;成員: 。

三、火災預防

1.機房全體人員應有高度的防火意識,禁止在機房內存放易燃易爆物品,禁止在機房內吸煙或使用明火,禁止在機房內亂拉電線。

2.消防器材由專人負責保管,定期檢查消防器材。未經許可,禁止擅自移動。

3.每月進行一次電源開關、電器和線路的檢查,發現故障、老化、破損、絕緣不良等不安全因素,必須及時報修,并做好記錄備案,消除安全隱患。

4.走廊、樓梯等公共部位嚴禁堆放物品,保持通道暢通。

四、火災處置

1.機房消防與大樓值班室相連接,值班人員發現報警器報警或發現火情時,應在迅速確認后電話通知大樓監控中心,并根據火情直接報119火警。

2.電話通知應急指揮小組,啟動應急預案。報告后,應根據火勢情況,向周圍人員發出火警信號。

3.消防應急指揮小組進入現場,開展滅火救援行動。在消防人員未到達火災現場時,應打開應急通道,組織現場無關人員有序疏散,并派人及時切斷電源,隔離火災危險源和重要設備,充分利用中心消防器材進行滅火。機房發生火災,應遵照下列原則:首先保人員安全;其次保關鍵設備、關鍵數據安全;三是保一般設備安全。

4.確認機房設備區域火情后,根據現場情況實施機房區域氣體滅火操作。

5.協助消防員滅火。在自救的基礎上,當專業消防隊到達火災現場后,火災事故應急指揮小組要簡要的向消防隊負責人說明火災情況,聽從消防隊的指揮,并全力支持消防隊員滅火。

五、災后處理

1、火災消除后,應將搶運的設備物資放置在安全場所,并登記造冊,計算火災損失。

2、火災消除后,對火災現場進行清理,消除燒毀物資,杜絕火勢復燃。

3、災后值班人員和安全主管人員應配合消防部門和公安部門分析火災原因,明確火災責任人。

本文來自 99學術網(www.gaojutz.com),轉載請保留網址和出處

上一篇:實踐與認識的辯證關系下一篇:說課比賽活動實施方案

91尤物免费视频-97这里有精品视频-99久久婷婷国产综合亚洲-国产91精品老熟女泄火