【教科書】 ITシステム監視の重要性(その1)

こんにちは。SolarWinds Japanの山田晃嗣<Kozy>です。

SolarWindsでは、IT監視全般にかかわる教科書的なノウハウを「Monitoring 101」と題した電子書籍で公開しています。「101」とは、米国の大学の講座の名称でよく使われる用語で「その分野の入門的な内容の講座」と言う意味です。SolarWindsを含めた特定の会社の製品に依存することなく、IT監視の基本の「き」を説明した大変分かりやすい内容です。

これまでは英語版しかないのですが、このたびSolarWinds Japanの総力を挙げてこの電子書籍の日本語版を翻訳することができました。その内容を何回かにわけて公開していきます。ただしくIT監視を行うための大切な基本がしっかり書かれていますので、是非ご一読いただければと思います。


ITシステム監視の重要性
ITシステム監視の理論、基本的な概念を解説した入門書

なぜITシステムには監視が必要なのでしょうか

朝のエクササイズを終え、シャワーを浴びて、おいしいコーヒーを飲み、爽やかな気分でオフィスに着いたあなたは、午前9時に自席についた。ポストイットで貼られたTo-Doリストは溜まる一方だが、その中には「インターネットが遅い」というユーザーからの苦情や、「通信会社に払う料金が高すぎると経理部が気にしているから正確な数字を出せ」といった上司からの指示もある。

PCにログインしてメールを開こうとすると、昨晩からメールが全く届いていないことに気づく。「おかしいな」と思った矢先、同僚の一人があなたの到着を見て「どうもメールシステムがストップしているらしい」と言ってきた。

メールサーバーにログオンしようとするがダメ。リモートデスクトップでも接続できない。Pingを打ってみても反応がない。沈んだ気持ちで、コンピュータールームまでの長い道のりを歩く。

サーバーの電源スイッチに指を突っ込みながら、当分To-Doリストを減らすことは無理だとため息をついた。しばらくサーバーと格闘すると、かろうじて本体コンソールでログオンできた。ドライブの1つが完全に容量オーバーであることをスクリーン上のポップアップアラートが教えてくれる。

実はずっと(本当にずっと!)後になってから、何が起こったのかが分かった。夜中(正確には午前2時30分)にデータドライブが一杯になり、そのせいでメールサービスが停止したのだ。直後にシステムドライブのエラーが限界に達し、システム全体がダウンしてしまったのだった。

(障害発生前にデータドライブの容量が1週間以上も95%で推移していることに気づいていなかった。ただし問題はこれだけではない。OSが入っているドライブは、この17日間、15分ごとに読み書きのエラーを出し続けていた)

メールシステムを復旧しようと格闘していると、社長が海外での契約交渉から戻ってきたことを上司から知らされた。帰りの飛行機の中で、社長はお客様にフォローアップの書類を送る必要があったそうだ。ところが会社のメールが使えないので、Gmailのアカウントを作ってそこからファイルを送ったとのこと。この件も含めて、30分後には状況を報告するようにと言われた。

上司との会話は針のむしろに座るようなものになるだろう。あなたは報告書のためのメモを取り始めた...

はじめに

冒頭で書いた状況は、多少脚色があったとしてもITの世界である程度以上働いたことのある人であれば、特殊なことでもないと感じることでしょう。システムは突然にクラッシュし、ユーザーは「ネットが遅い」と勝手な主張をし、上司はエビデンスと報告を要求してくるものです。あなたは、どうすれば意味のある方法でエビデンスを収集できるのか頭を悩ませることになります。

これらの課題に対する答えは、教科書的には確かに存在します。環境を効果的に監視し、統計情報を収集し、エラー状態をチェックすることで、必要なときに効果的に行動したり、状況を報告することができるようになります。

もちろん「言うは易し行うは難し」です。「ネットワークを監視しましょう」という言葉は、具体的に何を見るべきか、それをどうやって取り出すか、そしていかに監視対象のシステムへの影響を最小限にするか、これらの方法を知っていることを前提としています。また、集めた情報をどこに保存するか、どうやってしきい値を正しく設定するか、問題をタイムリーに人々に知らせるか、これらの方法を知っていることも求められます。

仕事に適したツールを持つことは、実は戦いの半分以上の要素を占めます。しかしそれでこの戦いが終わるわけではなく、小競り合いの始まりでしかありません。

効果的なIT監視ソリューションを構築するには、監視の基本的な概念を学ぶことが真の出発点となります。監視の機能を設定する前に、そもそも「監視とは何か」を知る必要があるのです。

このドキュメントは、IT監視の技術、理論、考え方の基礎と、実際にIT監視を実現する方法を紹介することを目的としています。特定のソフトウェアについての説明は一切ありません。Pingはそれをどんなオブラートに包んだとしても、結局はただのpingなのです。

監視の概念: FCAPS モデル

分かりにくい概念に出会った場合、現実世界のモデルや枠組みに構造化して考えることが理解の助けになることがよくあります。幸いなことに、監視にはFCAPSと呼ばれるモデルがすでにあります。

FCAPSは、Fault(故障)、Capacity(容量)、Administration(管理)、Performance(パフォーマンス)、Security(セキュリティ)の頭文字をとったものです。FCAPSモデルは次のようになりますが、ある都市から別の都市へ飛ぶ飛行機をイメージすると良いでしょう。

これは確かに幅広いテーマを単純化したものではありますが、多くの場合に良い理解が得られます。

IT監視は、主にFCAPSのF(故障)、C(容量)、P(パフォーマンス)に関係しています。管理(誰がシステムにアクセスしているか)とセキュリティ(特定の時間に誰がシステムにアクセスしたか)は、通常セキュリティチームやRADIUS/TACACSタイプのツールの管轄となります。

したがって、このドキュメントでは、F、C、Pに焦点を当て、AとSについては別の機会に譲ることにします。


以降、(その2)~(その4)に続きます。

(その2)

(その3)

(その4)