システムの状態を把握しよう
システム管理者がまず最初にすべきことは、システムの状態を把握することです。私は状況把握をしない限りはシステム管理なんてできないしさせたくないと考えています。
最低でも以下の項目については把握するよう心がけましょう!
把握すべき内容 |
---|
運用ルール・ポリシー |
機器構成 |
運用体制 |
関係連絡先(保守契約ベンダー連絡先等含む) |
OS環境 |
管理者ID・パスワード |
サーバ構成 |
ネットワーク構成 |
アプリケーション・プロセスの状況 |
リソース(CPU・メモリ・ディスク・ネットワークトラフィック)の稼働状況 |
IPアドレス・ホスト名一覧 |
日次処理・週次処理など動作処理の把握 |
ルーチン作業の把握 |
なお、通常上記の内容を把握するために要件定義書やシステム環境設計書、ネットワーク構成図などいくつも資料が用意されているはずですのでそれらを確認しましょう。
※もしこの記事を読んでいる現役のシステム管理者の方で資料が無い方は、新人や後任、また今後のシステム管理業務の効率化のためにもぜひ作成しましょう!
なお、営業になってしまいますが、当方(リーウェブ)ではそういった資料作成のための調査や補佐などの業務も請けております。また各種資料のフォーマット提供のご相談にも応じていますので、リーウェブホームページまたはお電話よりお気軽にご相談ください。(遠方の場合は当方が担当するだけでなく、別途専門業者を紹介することも可能です)
他にも新人教育や情報モラル研修などでお困りの場合も是非ご相談ください。
システムトラブルに備えよう
システムのリリース直後やメンテナンスによる構成変更時、また長期間稼動させているシステムは不具合が発生することがあります。システム管理者はサーバの停止等を含めた危機的な障害から速やかに普及できるよう日頃から準備しておきましょう。
バックアップを定期的に取得する
ここで一言!バックアップは本当に重要です!絶対に定期的に取得するようにしましょう。
ということでバックアップは重要な作業になりますが、外部媒体へバックアップを取得する場合のコストやバックアップを取得するのに長時間を必要とするため、「どのデータを、どのタイミングで、どの場所に」という優先度と方針をしっかり決め、バックアップの計画および設定を行いましょう。
テスト環境を準備する
本番環境と同スペックで無くてもかまわないので、例えばサーバの場合は本番環境と同じOSとアプリケーション環境を準備しましょう。テスト環境があれば、新しいパッチやアプリケーションを追加する際やシステム構成変更時の動作テストなどリスクが伴う作業を、実際のサービスに影響を及ぼすこと無く実施できます。また、本番環境とデータの同期を取っていればいざという時のスペアにもなります。
※Redhat Enterprise Linuxなど商用ディストリビューションを本番環境で使用している場合は、テスト環境分のライセンスを保持しているか注意しましょう。もしライセンスが無いのであれば、CentOSなどフリーライセンスのデストリビューションで代替するなど調整しましょう。
上層部にIT技術に詳しい方がいればテスト環境の重要性が伝わりやすいですが、そうでない場合は用途やリスク、コストなどの資料をまとめ粘り強く交渉してください。(でないと自分の首を絞めることになっちゃいますので・・・)
ログの監視・管理を行いましょう
ログには、システム内部で発生したさまざまなイベントに関する情報が記載されています。このログを定期的に監視することで問題を未然に防げたり、トラブルへの迅速な対応が可能となる場合があります。
私自身も以前はそうでしたが、多くの方が日常(通常稼動時)はほとんどログを気にすることが無いのではないかと思います。ただ、一度でもトラブルに遭遇した方は分かるかと思いますが、ログはトラブル時には非常に重要な情報源になります。(というかトラブル発生時にはまず状況把握のためにログの調査を行います)
いざというときに困らないよう、どのログに何のデータが格納されているかや、ログの見方などは押さえておきましょう。