ITインフラSummit 2019 夏

ITシステムのログ、メトリック、トレースデータを
取り込んで機械学習で分析
システムの状態を正しく把握し、さらに障害を予測する

Splunk Services Japan
ITOAスペシャリスト
松本 浩彰

ITシステムのログを分析することで、ITシステムの運用を省力化できる。ITシステムに何が起こっているのかを正しく把握できれば、素早く対処できる。さらにデータのトレンドを基に30分後に発生する障害を予測できれば、障害を未然に防げる。米Splunkのデータプラットフォーム「Splunk Enterprise」「Splunk ITSI」を使えば、こうした運用が可能になる。機械学習によるデータ分析を自動化しており、任意のログデータを取り込んで簡単に分析できる。

データ分析でIT運用を省力化
状況を正しく把握し、障害を予測

Splunk Services Japan
ITOAスペシャリスト
松本 浩彰

ITシステムの運用を省力化する手段の1つとして、ITシステムの監視や障害対応の作業の軽減があげられる。ITシステムのログを分析してITシステムに何が起こっているのかを正しく把握し、障害の原因を半ば自動的に特定し対処することができれば、省力化だけでなくビジネスサービスの可用性・サービスレベルが向上する。さらに、30分後に起こる障害を予測し未然に防止することができれば、その効果はさらに大きなものとなる。

米Splunkは、ログ、メトリック、トレースデータなどを取り込んで分析するデータプラットフォーム「Splunk Enterprise」を提供している。特徴は、分析できるデータの種類を問わないこと。テキスト形式のデータであれば、どんなデータでも取り込んで分析できる。

ITインフラSummitの講演では、ITインフラの運用を省力化する「Splunk ITSI」(IT Service Intelligence)の用途について解説した。Splunk Services Japanの松本浩彰氏は、「ITシステムが健全であるかどうかを、人が判断する以上の精度で、スマートに判断できる」とアピールする。

様々なシステムからデータを取り込める
数千のデータソースの意味を解釈

Splunk Enterpriseは、サーバー、アプリケーション、クラウドサービス、IoTデバイスなど、ほとんどすべてのシステムからデータを取得できる。取り込んだデータをリアルタイムに解釈し、そこから洞察を得られる。

データベースのような構造化されたデータだけでなく、ログデータのように、そのままでは解析が難しい非構造化データを含めて分析できる。分析対象のデータはETL(抽出/加工/登録)処理を用いずにそのまま取り込み、分析意図に応じて後付けでスキーマを簡単に定義できる。

取り込んだデータを正しく解釈するためのエコシステムも用意している。多くのデータソースに対して、データを解釈するためのアプリを用意している。取り込むデータに合わせたアプリはSplunkbaseというサイトから誰でもダウンロードできる。

機械学習でIT運用を省力化
Splunkは障害の検知と予測を担う

IT運用のトレンドで注目すべきキーワードが「AIOps」だ。これは機械学習のようなAI(人工知能)を、ITシステムの運用に活用することを意味する。松本氏は、「Splunkは、AIOpsの一翼を担える」と指摘する。

AIOpsのカバー範囲は広い。「自律的なシステム」、「定型的な管理作業の自動化」、「人が介在しないセルフサービス型のIT」、「インフラとミドルウエアの構築を自動化」、「トラブルシューティングの自動化」、「異常の検出と障害の予兆検知」、「障害復旧の自動化」、などだ。

Splunkが得意とする領域は、AIOpsのうち、「トラブルシューティングの自動化」、「異常の検出と障害の予兆検知」、「障害復旧の自動化」だ。様々なデータを分析し機械学習を応用することによって、システム障害の検出と、システム障害の予測ができる。

動的なしきい値設定やアノマリー分析が可能
機械学習の知識がなくても、簡便に機械学習を応用可能

松本氏は、システム障害への対策として有効な機械学習の例を4つ挙げた。

(1)「異常検出」(データのパターンの異常を検知する)、(2)「動的なしきい値設定」(監視パラメータのしきい値を自動で設定・調整する)、(3)「予測」(障害の発生を回帰的に予測する)、(4)「イベントクラスタリング」(発生したイベントを自動的に分類して意味のあるグループを形成する)、だ。

まずは、データの傾向を分析し、正しく現状を認識することが重要だ。Splunk ITSIであれば、異常値かどうかを判断するためのしきい値を、動的に設定できる。過去のデータの傾向を読み、例外的な動きを計算し、しきい値を毎日調整してくれるので、管理者は正しいしきい値の設定に悩む必要がない。

さらに、傾向から逸脱した突発的な異常値として、アノマリー分析もできる。通常とは異なることが起こっているという現象を見つけられる。

現状を正しく把握できることの先には、回帰モデルによる30分後の障害予測がある。Splunk ITSIなら、過去のデータの傾向から将来を予測できる。内部的には機械学習アルゴリズムとして、線形回帰、勾配ブースティング、ランダムフォレストなどを使うが、最も精度の高いモデルが推奨されるので利用者は機械学習のスキルがなくても障害予測の実装が可能である。

複数のデータ同士の相関関係も分析できる。これにより、一見無関係なデータから価値のある情報を引き出せる。

Splunkは今後、検出した障害や予測した障害に対してアクションを起こすための機能を強化する予定だ。障害を検知した時点で自動的に復旧処理を実行させたり、障害を予測した時点で回避処理を実行させることができるようになる。

日本のIT運用の成熟度は低い
素早い対処や予知保全が求められる

松本氏は、現時点での日本のIT運用は遅れていると警鐘を鳴らす。「何か問題が起こってから対処している。対処のスピードも遅い。障害がビジネスに与える影響が大きい」と指摘する。理想は、障害を素早く検知することと、障害が起こる前に予測して障害を事前に回避することだ。これにより、障害がビジネスに与える影響を少なくすることができる。

松本氏は、IT運用の成熟度を、4つのレベルに分けて提示した。レベル1は、システムの監視ができている段階だ。レベル2は、業務目線でデータを可視化できている段階だ。レベル3は、ビジネスへの影響がどれほどあるかという観点でITを管理できている段階だ。レベル4は、システム障害などの予測に基づいた改善ができる段階だ。現状、レベル4に達している企業はほとんどないという。Splunk EnterpriseによってIT運用の成熟度をレベル4の段階にもっていくことができる。

お問い合わせ

Splunk Services Japan 合同会社

〒100-0004 東京都千代田区大手町1-1-1
大手町パークビルディング8F
TEL: 03-6206-3780

URL: https://www.splunk.com/ja_jp
E-mail: splunkjp@splunk.com

▲ページの先頭へ