新・世界標準の運用監視 RCA(根本原因分析)の遅れ、アラート疲れを解消するAIエージェントとは?

新・世界標準の運用監視 RCA(根本原因分析)の遅れ、アラート疲れを解消するAIエージェントとは?

  • Facebook
  • X
  • line

IT人材不足が深刻化する中、複雑化するシステムをいかに安定かつ効率的に運用するか。ポイントは、人に代わって運用管理業務を行うAIエージェントの活用だ。グローバルで利用が拡大し、国内でも先行導入が進むオブザーバビリティ・プラットフォーム「Grafana Cloud(グラファナ クラウド)」。RCA(根本原因分析)の遅れ、“アラート疲れ”など現場の課題を解決するために開発された。システム運用管理の新潮流となるオブザーバビリティに造詣の深い、グラファナラボ日本合同会社シニアソリューションズエンジニアの角田勝義氏。情報システム部門をアシストする「Grafana Assistant」について、具体的に解説する。

トレンドではなく実務で使える――
それが、「Grafana Assistant」だ

DX推進、AI活用など情報システム部門に寄せられる期待は大きい。一方で、運用管理負荷の増大により現場エンジニアの負担は増え続けている。業務量の多さだけでなく、マルチクラウド、ハイブリッドクラウドなどシステムの複雑化、アプリケーションを分割するマイクロサービス化により運用の煩雑さに拍車がかかる。また労働力人口が減少する中、IT人材不足解消の見通しは立たない。様々な運用管理の課題解決の鍵を握るのが、人に代わって業務を行うAIエージェントの活用だ。

角田 勝義 氏
グラファナラボ日本合同会社
シニアソリューションズエンジニア
角田 勝義 氏

AIエージェントがどこまで運用業務を担えるのか。「トレンドではなく、実務で使えるAIの開発では、業務知識とテクノロジーの両輪が必要です」と、グラファナラボ日本シニアソリューションズエンジニアの角田勝義氏は話し、こう続ける。「可視化・監視の先へ、オブザーバビリティ・プラットフォームGrafana Cloudの主要機能の一つであるAIエージェント『Grafana Assistant』は、IT運用管理の新潮流『オブザーバビリティ(可観測性)』の現場が抱える課題解決のために開発されました」

オブザーバビリティは複雑なシステム全体を観測することで、問題の根本原因を特定し迅速な対応につなげる。グローバルでは認知度が高く、国内でも関心が高まってきた。Grafana Labsが開発したオブザーバビリティ・プラットフォームのGrafanaは、全世界で2500万人以上が利用する。OSS版のGrafanaをエンタープライズ利用に最適化したのがGrafana Cloudである。スケーラビリティ、保守運用、アクセス権限管理、データ統合、インシデント対応プロセスまでをフルマネージドで提供し、ミッションクリティカルなシステム運用を支える。現在、世界で7000社以上が採用している。2025年11月には、Grafana Labsは日本法人を設立。国内支援体制の強化を図った。

rafana Labsのグローバル実績の図
Grafana Labsのグローバル実績

OSS版とエンタープライズ版Grafana Cloudの違いについて、角田氏は大きく3点を挙げた。「1つ目は、サーバー管理が不要なこと。2つ目は、バージョンアップなどをGrafana Labsで行うため最新機能がすぐに利用できること。3つ目は、Grafana AssistantなどOSS版にはない機能を使って運用の高度化が図れることです」

Grafana CloudのAIエージェントであるGrafana Assistantは、AIを製品に深く統合すること、そしてユーザー体験の向上に注力した結果「実務で使えるAI」を実現。既製のAIモデルがOSSの膨大なデータを学習していたからこそできた結果である。

Grafana Assistantは、「Actually useful AI(実務で使えるAI)」の理念を象徴するの図
Grafana Assistantは、「Actually useful AI(実務で使えるAI)」の理念を象徴する

「根本原因」の分析に遅延無し
100台のサーバーを同時に調査も

Grafana Assistantは運用現場の負荷を削減し、DXを推進する「攻め」と、安定稼働の「守り」に集中するための時間を創出。代表的な活用シーンがRCA(根本原因分析)の遅れとアラート疲れの解消だ。

RCAは、システム障害やインシデントが発生した際に、表面的な問題ではなく根本的な原因を特定することで、復旧時間の短縮、再発防止につなげる。日本企業におけるRCAの課題について、角田氏は指摘する。

「一般的に、日本企業ではインフラ運用とアプリケーション開発が分断されています。アプリケーション開発はベンダーに依頼するケースが多いため、アプリケーションの中身が分かる人材が社内にいないのが現状です。根本原因を分析する際に、インフラ側かアプリ側か、障害を切り分けるのは難しい作業となります。この作業をベンダーと行うのは、高い壁があると思います。メトリクスやログを分析できても、アプリケーションの一連の処理を記録したトレース情報を利用できないのが大きな課題です。海外企業では、アプリケーション開発の内製化が進んでおり、自社でアプリケーションを含めたRCAを行えます」

日本企業が抱えるRCAの課題解決では、運用と開発の両方を見ることができる、IT人材の育成が求められる。しかし、多くの国内企業でIT人材不足が慢性化しており、現実的なアプローチではない。有効な解決策となるのが、RCAを行えるAIエージェントの活用だ。

「まずGrafana Cloudでメトリクス、ログ、トレースなどのデータを統合管理します。それらを使ってGrafana Assistantがインフラだけでなくアプリケーションレイヤーで起きている問題を分析します。実際にデモをご覧いただいたお客さまからは、『何時に設定が変更され、その結果エラー率が上昇し100%に到達したのかまで把握できる』といった、具体性の高い分析結果を評価する声が寄せられています」(角田氏)

Grafana Assistantは根本原因を分析し、ダッシュボードを作成し可視化してくれる。アプリケーションに関する知識不足のエンジニアも、ダッシュボードを見て判断できる。また、自然言語で「復旧策を教えてください」「中長期的な対策を考えてください」と伝えると解決策や対策を回答する。さらに、Grafana Assistantが調べた情報をもとに開発側と会話することで、根本原因特定の迅速化、復旧時間の短縮が図れる。

Grafana Cloudを活用することで障害発生時における初動対応も迅速化できる。「障害が発生した場合に、関連するコンポーネントやつながりを見ることが必要です。他社ツールは画面を切り替えなければならず、手間や時間がかかります。Grafana Cloudは1つの画面でメトリクス、ログ、トレースの情報が一目瞭然です。時系列で何が起きているのかを把握でき、必要な情報を瞬時に利用し判断の質とスピードを高めることができます」

Grafana Assistantは、人が行ってきたRCAの概念を超える。「人手では困難だった100台のサーバーを同時に調査できます。今まで知識がある人でもすぐにたどりつけなかった根本原因に対し、短時間で到達可能です。また、少人数でRCAに取り組めるため、システムの安定性向上とともにIT人材不足解消にも貢献します」

RCAに関するAIエージェントのデモ画面
RCAに関するAIエージェントのデモ画面

「どこに目を向けるべきか」を示唆
“アラート疲れ”からの解放

アラート疲れの本質は、緊急性の低い通知や重複アラート、誤報など対応不要なノイズが多く含まれ、その取捨選択に手間と時間を要することだ。システム数やシステムを構成するコンポーネント数の増加、アプリケーションを含む監視領域の拡大などによりアラート数も多くなっている。アラート最適化のポイントについて、角田氏は説明する。

「アラートは、設定したしきい値を超えた時に発生するため、見直すことで最適化できます。課題はシステムの老朽化や担当者の退職などにより、しきい値を設定した根拠が残っていないケースがあることです。また過去に設定しており、実態と見合っていないものもあります。しきい値の課題解決では、過去1カ月での発生件数と、どういうアラートがどのコンポーネントで発生しているのかを可視化し整理・棚卸することが基本となります」

Grafana Assistantによるダッシュボード画面
Grafana Assistantによるダッシュボード画面

膨大なアラートを人手で整理するのは現実的ではない。Grafana Cloudで既存のデータを収集・統合し、Grafana Assistantが分析し作成したダッシュボードで現状把握を行う。また、Grafana Assistantが頻繁に発生しているアラートを抽出し「どこに目を向けるべきか」を示す。頻繁に発生しているアラートであっても、開発や運用の担当者が対処していないのであれば、不要なアラートである可能性が高いため、しきい値を見直す。その結果をダッシュボードで確認し最適化を図っていく。

Grafana Assistantによるダッシュボード作成のデモ動画

しきい値の再設定をどう行うべきか。「Grafana Cloudではベストプラクティスに基づいたアラートのしきい値が用意されています。まずはそれを利用し、不足分を追加していくのが効率的だと思います」(角田氏)

日本企業が競争力を高めるためには、レガシーシステムのマイグレーション、クラウドの活用拡大、DXの加速が不可欠だ。それを支えるシステム運用管理では、増員は容易ではない。RCAやアラート対応は安定稼働を支える重要な要素であり、最終判断は人が行いながら、分析や判断支援をAIに任せるヒューマン・イン・ザ・ループの運用により、安定性・効率・スピードを両立できる。Grafana Assistantは、実務に強く疲れを知らない仮想従業員として、多忙な情報システム部門をアシストする。

  • Facebook
  • X
  • line

Archive