目次
トラブルを迅速かつ的確に対応しよう
正確にシステムを設計・構築し、日頃からしっかりとした運用を行っていても、トラブルというものは発生します。いざトラブルが発生した場合は、原因がどこにあるのかを冷静に判断し、早急に対応・復旧することが重要となります。
新人の方など最初はアワアワしてパニックになると思いますが、しっかり落ち着いて対応するよう心がけましょう。(私は今でもトラブル時は胸が張り裂けそうなぐらいドキドキしますけど)
トラブル対応フロー
システムの種類などによって異なりますが、一般的なトラブル対処手順について記載します。
トラブル時のヒアリング・状況把握について
まずは、どのような操作をした結果(どの処理が走った結果)、何が起こったのかを正確に把握する必要があります。推測等の勝手な判断で対処することは被害拡大繋がるためやめましょう。なお、トラブルには人為的なミスが絡んでいることが多いですが、本人を強く問いただしても対応に必要な回答が得られることはまず無いです。(人は自分が責められると、慌てるか何もしていないなど正確な情報が見えない回答をするものです。・・・あくまで私の経験側なのでその限りでは無いかもですが)
なので、ヒアリングする際は責任を追及するのではなく、正確な情報をヒアリングするよう心がけましょう。
※ヒアリングする項目を纏めたヒアリングシートを普段から準備しておくとスムーズですよ。
問題点の切り分けを行う
状況の把握ができたら、次に問題点の切り分けを行います。ここでいう切り分けとは、
- 影響範囲は何処(誰)なのか
- 作業の優先順位(即時対応が必要なものか、適切なタイミングで対応する必要があるものかの判断)
- 調査等の担当者の割り振り
- 原因の分析
などです。また、その障害度に応じて関係各所へ連絡(一報)を行います。
この切り分けの中で一番難しいことは、「作業の優先順位」を決めるということです。例えば重要なサーバが停止したなどはすぐに対応する必要がありますが、そのシステムを使わなくても代替手段のあるものはその代替手段を使って凌いでもらったり、一部の業務システムを復旧するのに全業務システムを停止する必要があるといった場合には業務時間後に対応するなど、的確な判断が必要となります。
対応・復旧作業
状況の把握と原因の特定が終わったら、具体的な対応・復旧作業を行います。なお、前述の対応フローでは暫定対応と恒久対応という形に分かれていますが、原因の内容によっては暫定対応=恒久対応という形になる場合もあります。実際の対応内容についてはトラブル内容によって異なるためここでは割愛します。
報告・改善提案
さあ、私の苦手な報告書についてです(笑)
報告書には、発生日時・トラブル内容・原因・対応内容・経緯説明などを書きます。また、設定や構成を変更した場合などはその詳細を必ず資料として残しておきましょう。こういった資料の積み重ねが技術資産として蓄積されていき今後の管理・運用に役に立ちますので面倒がらずに・・・ね!
また、「何故トラブルが発生したのか、今後再発の可能性はあるのか、今後の対応はどうするのか」という点に重点をおき、システムや運用手順の見直しなどを行うことも重要です。特に一度不安定になったり暫定対応のみを繰り返したシステムは、いずれより大きな障害が発生します。恒久対応の重要性をしっかりと認識し、何をどう変えるのが最適か考え計画と立案を行い、本当の意味でトラブル対応が完了するように進めてください。
まとめ
少し長くなってしまいましたが、システム管理について少しは知っていただけたかなと思います。
これからシステム管理者になる方々、また最近システム管理を任された方々へ。システムの管理手法はその現場によって様々です。決して今自身が行っている形が最善と思うのではなく、常にどうすればもっと安定稼動するか、作業効率が良くなるか、費用対効果は適切かなどを考えてください。いろいろな情報を収集することで自分のスキルアップにも繋がりますし、そうやって得た知識がいつか役に立つ時がきますのでこれからも頑張ってください。
以上となりますが、私の拙い文章を最後まで読んでいただきありがとうございました。