ITインフラSummit 2020

監視を自動化して監視の工数と品質を改善
アラートをトリガーに通知や一次対応も自動化

アイビーシー
マーケティング統括部 ソリューションサービス部 部長
明星 誠

アイビーシー(IBC)は、「システム稼働品質の向上」をコンセプトに掲げ、ネットワークの性能改善コンサルティングや運用のアウトソーシングサービスなどを手がけている。自社製品のネットワーク/システム監視ソフト「System Answer G3」も販売している。IBCの明星氏は講演で、監視を自動化するメリットを説くとともに、監視ツールと運用ツールを組み合わせた運用の自動化を提案した。

システムの稼働状況や性能を監視するツール
しきい値監視に加えて障害の予兆検知が可能

アイビーシー
明星 誠

IBCが提供するSystem Answer G3は、ネットワーク/システムの稼働状況や性能を監視するソフトウェアだ。市場ではZabbixなどの監視ツールが有名だが、IBCの明星氏は「ネットワーク/システム監視は、設定や運用が難しい世界です」と指摘する。System Answer G3では、監視の手間を省力化し、簡単にデータを収集できる仕組みがあるという。

System Answer G3は、ネットワークやサーバーの稼働情報や性能情報を収集するSNMPマネージャ機能を中核としている。このほかにも、アプリケーションのポート監視、対象システムにログインした状態でのプロセス監視、Syslog監視、APIを介した仮想化基盤やクラウドの監視、IPMIによるハードウェア監視など、様々な方法でデータを取得できる。システムの死活監視もできる。

監視のほかに、収集して蓄積したデータを分析する機能も持つ。しきい値の監視だけでなく、ベースラインを計測してトレンドを分析し、通常時とは異なるデータを検出できる。これにより、システム障害の予兆を事前に検知して、障害が発生しないように対策できる。

監視を自動化できれば
工数や抜け漏れが減る

ネットワークの姿は、日々変わっている。使っているポートが変化したり、機器が置き換えられたりする。「システム管理者は、システムの変化に合わせて監視ツールの設定を更新し続けており、これが結構な工数になっています。監視できていると思っていた機器が監視できていなかったという抜け漏れのミスも起こります」(明星氏)。

監視の工数を減らし、抜け漏れを防ぐためには、できるだけ自動化する必要がある。こうした状況を受けて、死活監視ツールや性能監視ツールなど監視ツールの多くが自動化を図っている。例えば、チケット管理や構成管理など外部システムとの連携、システム連携による障害の一次対応、監視ツール自体の監視設定の追加と削除といった自動化が進んでいる。

System Answer G3も、監視の設定を自動化している。例えば、監視対象のネットワークセグメントを登録しておくと、定期的にセグメントを巡回し、新たに配備されたサーバーを自動的に監視対象として追加できる。登録済みのノードに変更が加わった場合も、変更内容を取得して情報を更新できる。

ノード登録から監視項目のメンテまで
監視を自動化するステップは4つ

監視を自動化するステップは、大きく4つに分けられる。(1)ノード登録、(2)監視項目の登録、(3)ノード情報の更新、(4)監視項目のメンテナンスだ。これら4つのステップごとにポリシーを検討して自動化を進めていく。

(1)のノード登録においては、どの単位でノードを登録するのかが1つの検討事項となる。監視対象のIPアドレスを個別に指定するだけでなく、ネットワークセグメント単位で登録するといった具合だ。

(2)の監視項目の登録では、機器ごとの監視項目を設定する。トラフィック、エラーパケット、CPU使用率、ディスク使用量などだ。これらは自動的に登録できるとよい。増設したハードディスクの情報を自動で登録する仕組みも必要だ。逆に、監視していない項目を削除できることが望ましい。

(3)のノード情報の更新では、一定周期でノード情報を更新する。機器が変わっていないか、別の機器に置き換わっていないか、インタフェースやシステム構成が変わっていないかなどを調べる。週次や月次で情報を更新していく。

(4)の監視項目のメンテナンスでは、監視対象に一定時間接続できなかった場合に監視対象から消去したり、監視データがない場合に監視項目を消去したりするなど、ポリシーに合わせて監視項目を調整する。状況に合わせたポリシーのチューニングも必要だ。

明星氏は、監視を自動化した事例として、ネットワークのカンファレンス「Interop Tokyo 2019」の現場ネットワークであるShowNetの監視を、System Answer G3で自動化した事例を紹介した。監視対象は、31ベンダー、628ホスト、93機器、6万4358項目に及ぶ。日々ネットワーク構成が変化する環境だったが、「自動でノードを登録できるため、設置後はほったらかしで監視できました」(明星氏)。

Ansibleなど他ツールと連携して運用を自動化
監視をトリガーに通知や復旧などを自動で実行

監視の自動化を達成した後は、運用の自動化を目指したい。運用を自動化すれば、監視の結果をトリガーに、アラート通知や復旧作業のアクションを起こせるようになる。システム障害の一次対応を迅速化できるほか、対応時の操作ミスが減るなど、運用の品質を高められる。

運用の自動化に使えるツールは様々だ。有名なツールとして明星氏は、構成管理ツールのAnsibleと、Web操作を自動化できるSeleniumを挙げた。

明星氏はさらに、IBCのパートナーであるフィックスポイントが作った運用自動化ツールKompiraを紹介した。監視ツールが発行したアラート通知などをトリガーとして、あらかじめ定義しておいたジョブフローを自動で実行できるツールだ。

運用を自動化するステップは大きく3つある、と明星氏は説明する。まずは、運用業務を棚卸して、マニュアルの有無を確認する。次に、自動化する業務を洗い出し、対応件数の多い業務や自動化に向いた業務などを抽出する。さらに、自動化する業務の手順をマニュアル化する。

監視と運用を自動化した事例は多数
アラートの内容に応じて通知方法を切り替え

監視と運用の自動化によって成果を上げた事例の1つが、監視装置のアラート種別によって通知メールの宛先や内容を制御する事例だ。タイムアウトなら障害とみなして障害担当者に通知し、しきい値の超過であれば別の担当者に通知するといった具合だ。ユーザーのSLAに合わせて対応を変えたりもできる。

この事例では、担当エンジニアに障害をエスカレーションする際に必要となるログ情報の取得も自動化した。障害発生箇所のホスト名やアラート種別に合わせて、それぞれ必要になる対応手順を記述したURLを追記して通知する。

別の事例として明星氏は、ネットワークの障害対応を自動化した事例も紹介した。ネットワークの障害アラートをトリガーに管理データベースを参照し、障害がどのユーザーで発生したかを調べ、対象ユーザーやシステム管理者に通知する。

この事例では、通知の手段として、メールだけでなく、クラウド型のIP電話サービス(リンクのBIZTEL)を使った電話音声通知も活用している。さらに、IVR(自動音声応答装置)を使って音声メニューを流し、対応の選択肢の判断を管理者に委ねる仕掛けも取り込んだ。

さらに別の事例では、報告書作成の作業を自動化した。System Answer G3のアラート情報をKompiraに受け渡し、ログとして保管する。アラートのサマリー情報を自動で作成し、月次や週次で報告する。監視対象ホストごとにサードパーティー製品の保守有効期限などの情報をあらかじめ登録しておくことで、期限切れの6カ月、3カ月、1カ月前にメールで通知する。

お問い合わせ

アイビーシー

https://www.ibc21.co.jp/

▲ページの先頭へ