読者です 読者をやめる 読者になる 読者になる

treedown’s Report

システム管理者に巻き起こる様々な事象を読者の貴方へ報告するブログです。会社でも家庭でも"システム"に携わるすべての方の共感を目指しています。

性能監視と死活監視は似て異なる

今日はシステム監視と言えばこれ、と言える2点⇒性能監視と死活監視についてご報告します。
性能監視と死活監視は割とごっちゃにされている方が多い印象です。

監視は大きく二種類

性能監視はネットワークやサーバのパフォーマンスを監視場所(監視サーバ)から確認する、という監視です。
死活監視は機器が正常稼働している(具体的に言えばpingが届く)ことを監視場所(監視サーバ)から確認する、という監視です。

どっちも監視サーバから確認できるようにする、という監視ですが、起点となる部分が異なります。

性能監視はサーバが稼働している前提でサービス停止や障害の前兆などを、実際に稼働しているサーバから監視サーバへ"報告させる"形式なので、監視対象が動作していなければ監視できません。
死活監視は、監視対象が動作しているかどうかに関わらず、監視サーバからアクセスした結果を元に「サーバが生きているかどうか」を"報告する"形式なので、監視サーバが動作していればOKです。

このあたりがごっちゃになっていて会話がかみ合わないことがたまにあります。
つまり、性能監視は死活監視を包括しているように見えるからです。
確かに、監視対象が動作していなければ性能監視は出来ないので、一見性能監視製品では死活監視もできているように錯覚します。
しかし、死活監視の情報と組み合わせなければ、OSやハードウェアからのサーバダウンか、ないしネットワークダウンで通信が届いていないのか、あるいはサービスダウンというだけでサーバ(OSやハードウェア)は生きているのか、が掴めず、現状把握が遅れることが多いです。
サーバが(あるいはネットワークの経路が)どこまで生きているか、このあたりは死活監視の領分です。
また性能監視でメジャーなSNMPベースの監視・管理ツールはサーバOS(正確にはSNMPサービス)が正常動作している前提での監視提供です。サーバやSNMPサービスがダウンしている場合の監視には使えないので、監視としては片手落ちになってしまいます。

なにで監視するか

名のあるところではNet-SNMPベースで監視をしてくれるCactiが有名です。
CactiではSNMPエージェントから報告される各種数値を指標として監視サーバに保管することで、性能監視が可能です。
ですが、実際に監視されるサーバがダウンしてしまうとこのSNMPエージェントが報告する数値を入手することができなくなってしまうため、監視が途絶えてしまうことになります。
ある日監視サーバが監視対象のサーバが応答しない、というアラートを出力していたら、まず障害(かどうかも含め)切り分けを実施する必要があります。
ここで、死活監視をしていると、障害の切り分けが容易になります。
サーバが応答していないのか、途中の経路が応答していないのか、はたまたサーバ自身は応答しているのか、が死活監視で即時に情報をつかめると実施するべき対処が見えることが多いです。

  • サーバが応答していなければ、サーバにログインしてログ確認(OSの障害でログインも苦労するかもしれませんが)
  • 途中の経路が応答していないのであれば、スイッチ・ルータなどの通信機器の動作確認
  • サーバが応答しているのであれば、サーバにログインして監視サービスやSNMPエージェントの動作を確認

といった具合に次に取るべきアクションが決まってきます。
しかし、性能監視に特化しているだけの監視だけではどこが障害ポイント化を絞り込むことができないケースが多く、障害箇所の切り分けに多少の時間を掛けてしまうことになります。
障害時は迅速な復旧が要求されますので、ある種時間との勝負になることも考慮すると、普段から性能監視に加え、死活監視を実施しておくことは無駄ではないと言えます。

もうちょっと踏み込んで

サーバ自身で自分の監視をするか、別のサーバに監視を統合して監視専用サーバから他のサーバを監視するか、というのも大きな選択です。
死活監視だと、自分自身が死んでいることを自分自身で報告するのは困難なので(当たり前ですが)他のサーバから監視する必要があります。
ですが、性能監視の場合には自分自身で監視して自分で監視データを蓄積したとしても、ある程度は監視として成立することになります。

また、別の考え方として、死活監視は単純な監視で済むが、性能監視に要求されるスキルは多岐に渡る(死活監視よりは知識が要求される)ことが多いです。
そういったスキル部分から考えても、まずは死活監視、スキルや監視業務のノウハウを多少Getしたところで性能監視を始めるというステップアップで監視を強化するという考え方もあります。

是非、監視業務が必要になったときには、
まず死活監視
死活監視で監視している内容を踏まえ、次に性能監視
と、このステップをお忘れなく。