【教科書】 ITシステム監視の重要性(その2)

こんにちは。SolarWinds Japanの山田晃嗣<Kozy>です。

前回の(その1)に続き、「【教科書】 ITシステム監視の重要性」の(その2)です。


システム監視の構成要素

使用するソフトウェア、プロトコル、テクノロジーに関わらず、監視システムの基本的な側面は共通しています。監視システムにはツールに依存しない共通した基本構成要素があるのです。必ずしも全てのソフトウェアツールや特定の監視技術にそのような構成要素が含まれるわけではありませんが、いずれも理解しておくべき概念であり、あなたのこれからの監視業務に影響を与える可能性は大いにあります。

エレメント
これは監視対象のデバイスの1つの側面であり、1つまたは複数の情報を返します。「IPアドレス」はエレメントの一つの例と言えますし、IPアドレスからは次の3つのデータが得られます。1)応答しているかどうか、2)応答の速さ、3)応答中にドロップしたパケット。

情報取得方法
情報をどのように取得するかは、もう一つの重要な概念です。お使いのIT監視の仕組みでは、デバイスからステータス・アップデートが送られてくるのを待つ(プッシュ)でしょうか?それとも積極的にデバイスをポーリングしに行く(プル)でしょうか?ターゲットデバイスへの接続にはどのようなプロトコルを使用するでしょうか?

頻度
情報取得方法と密接な関係にあるのが頻度です。デバイスは数分ごとに "ハートビート "を送るでしょうか?問題が発生したときだけデータを送信するのでしょうか?ポーリングを行うとしたら、何分ごとに情報を取得するのでしょうか?

データ保持
IT監視は、その性質上、データを大量に処理します。取得方法がプッシュ型であれプル型であれ、これら取得されたデータは通常どこかに保存されなければならず、大量に蓄積されていきます。最も単純なレベルでは、データ保持は「はい」か「いいえ」の選択です。統計情報を「1)収集し、評価し、対処し、そして破棄する」か、「2)データストアにデータを保管する」、のいずれかです。しかしもっと深く考えてみると、データはローテーションされる可能性もあるでしょう。一定のサイズまたは特定の時間に渡って保存され、その後データは削除されるのです。あるいは、特定の条件(ファイルが一定の大きさになったときや特定の期間が経過したときなど)でアーカイブ先に保存することもできますし、より堅牢なデータストア(データベース)にデータを保存することもできます。

データアグリゲーション
しばらく統計を取っていると、ある時点から細かい粒度のデータが必要ないと分かってくることがあります。データアグリゲーションとは、ある範囲のデータポイントを1つの数値に集約すること、つまり平均化することです。例えば、5分ごとに統計を取るとします。1週間後、これらの5分ごとの値は、1時間ごとの平均値に集約されます(つまり、12個のレコードが1個になります)。1ヶ月後には、その1時間ごとの値がさらに1日ごとの平均値に集約されます。このようにして、データベースの使用は、短期的な詳細分析と、集約された長期的な履歴の表示に最適化されます。

しきい値
FCAPSの話に戻りますが、障害監視の考え方の基本は、統計を収集してある種のラインを越えたかどうかを確認することです。それは単純な線(サーバーがオンかオフか)の場合もあれば、もっと複雑な線の場合もあります。いずれにしても、越えたラインはしきい値と呼ばれます。しきい値の例は以下の通りです。

» シングルトリガー
これは、単一の条件を超えた場合を示します。単一条件とは、必ずしも単純な when X is greater than 50 の式を意味するものではありません。条件自体は複雑なものになる可能性があります(例えば、現在の時刻が午前8時以降、午後5時以前で、Xが50より大きく、Yが20より小さい場合など)。しかし、トリガー自体がどれだけ複雑だとしても、それは一本の線で表すことができます。

» デルタ
このしきい値は固定点を見るのではなく、変化の割合を見ます。例えば「ディスクの使用率が20%上がった場合」のような条件などです。

» 発生回数
通常、1つのトリガーとの組み合わせで、何かが発生した回数を測定します。例えば、CPUが85%以上になり、それが15分間に5回連続して発生した場合などです。

リセット
リセットとは、しきい値とは逆の意味です。リセットは、デバイスが「正常に戻った」とみなされるポイントを示します。簡単な例では、しきい値が「デバイスがダウンしたとき」であれば、リセットは「デバイスがアップしたとき」となります。しかし、必ずしも完全に一致するとは限りません。しきい値が「ディスク使用率が85%以上のとき」であっても、リセットは「ディスク使用率が70%以下になったとき」になるかもしれません。しきい値と同様に、リセットは単一のトリガー、デルタ、または発生回数に基づいて発生する可能性があります。

レスポンス
しきい値やリセットについて議論していると、次の論理的な質問が出てくるかもしれません「なるほどそれで?  しきい値を超えたらどうするの?」レスポンスとはそのような側面を定義するものです。レスポンスには、電子メールの送信、サウンドファイルの再生、定義済みのスクリプトの実行などがあります。利用できる選択肢は、特定の監視アプリケーションに組み込まれた機能次第ではあります。しかし、概念は同じです。

リクエスター(ローカルエージェントまたはリモートシステム)
これまでのIT監視の説明の中で、IT監視自体がどこで行われているかについては(まだ)殆ど語られていません。これはつまり、(プル型の場合は)環境のどの地点から監視の統計情報を要求しているのか?(プッシュ型の場合は)どの地点に統計情報が送信されているのか?ということです。簡単に言うと、次の2つの選択肢があります。
 1) 監視対象機器上で動作するソフトウェア(エージェント)
 2) 監視対象機器の外部にある場所(エージェントレス)
この概念については、本ガイドの後半で詳しく説明します。

認証
リクエスターと密接に結びついているのが認証です。リクエスター(エージェント、エージェントレスに関わらず)は、どのようにして監視統計を要求したり、受け取ったりする権限を持つのでしょうか?認証方法は様々で、通常、特定の監視技術に依存しています。これについては後ほど詳しく説明します。今のところは「何かを監視するためにはそれを監視する許可が必要である」ことを理解しておいてください。


以降、(その3)~(その4)に続きます。

(その3)

(その4)