「DXの死角」第1回 システム障害対応は経営課題 「6時間超」の対応時間に社員は疲弊し、イノベーションは滞る

調査結果で衝撃の数字が明らかとなった。システム障害対応への遅れにより、日本企業が被る推定損失額は平均50億円以上に及ぶ。障害対応時間に6時間以上かかっており、社員の疲弊が懸念されるだけでなく、イノベーションが滞る原因となる。まさにDXの死角といえる。さらに深刻なのは、「過去1年間で重大システム障害を経験している」との回答率が6割、「障害が増加している」も4割近かった。経営基盤を揺るがす危機はすぐそこに迫っている。システム障害を迅速に復旧させることでエンジニアの疲弊を抑制し、DX推進をサポートするPagerDuty。同社代表取締役社長の山根伸行氏に、日本とグローバルで実施したシステム障害に関する調査結果をもとに、経営者が今取り組むべき危機対応と重要性について解説してもらった。

2024年7月19日を境に露呈した経営課題
日本企業が被る推定損害額は「50億円」も現実味

山根 伸行氏

PagerDuty株式会社
代表取締役社長
山根 伸行氏

システム障害は、経営にインパクトをもたらす。2024年7月19日、世界中の企業が「自分ごと」と認識した出来事があった。セキュリティーソフト更新が引き金となり世界規模のシステム障害が発生。航空業界では何千ものフライトが欠航し、金融、医療、報道、政府機関など多くの分野で業務に支障をきたした。保険会社は、多額の保険金請求に直面したといわれている。

山根 伸行氏

PagerDuty株式会社
代表取締役社長
山根 伸行氏

「2024年7月19日の事案は、もはや不測のシステム障害は発生することを前提にして、いかに発生後の対応プロセスを整えておくかに重きをおくことが重要と考えさせられる象徴的な出来事だったと多くのお客様よりお聞きしています」とPagerDuty代表取締役社長の山根伸行氏は指摘する。

「デジタルサービスの急速な拡大に伴い、クラウドとレガシーシステムの混在が進み、様々なシステムが相互接続されたITインフラはますます複雑化しており、それゆえにシステム障害が発生した際の修復作業も複雑化しています。予測不可能なシステム障害は、お客様のユーザーエクスペリエンスを低下させるだけでなく、自社を取り巻くパートナー企業や、取引先のビジネスにも損害をもたらします。こうしたシステム障害発生により、企業は加害者にも被害者にもなり得ます。自社システムがダウンすることで社会的責任を問われる企業も多く、システム障害対応を経営課題として捉える企業が増えています」

日本でも近年、数日にわたりモバイルデータ通信に接続できなくなったり、ATMから現金を引き出せなくなったりといった重大システム障害が発生している。しかし、表に出ているのは氷山の一角に過ぎない。Digital Operations Management(デジタル運用管理)のグローバルリーダーであるPagerDutyは、2024年8月に、日本企業の意思決定者とITリーダーに対し「システム障害(インシデント)による被害リスクと対応実態調査」を実施。調査結果から分かったのは、「対岸の火事」ではないということだ。

「過去1年間で、顧客体験に関わるサービス停止などの重大システム障害を経験しているとの回答率が6割に及んでいました。また、システム障害の数が平均37%増加していることも分かりました。これは、デジタルサービスの急速な拡大に伴うITインフラの複雑化が起因しています。システム障害発生をゼロにするのは実質不可能です。障害が起きることを前提とした対策が急務となっています」(山根氏)

過去1年で重大なインシデントを経験した企業(平均19件) 過去1年間における重大なインシデント増加割合

増加する重大システム障害。企業は対策を迫られる

調査結果では、経営基盤を揺るがす数字も明らかになった。重大システム障害が発生した場合の推定損害額は、1企業当たり年間52億円にものぼるというのだ。

経営を圧迫する深刻な問題

重大システム障害の発生は経営を深刻に圧迫しかねない

「調査に協力いただいた企業に、売上損失、SLA(サービスレベルアグリーメント)の未達成、顧客離れ、ブランド毀損、生産性低下、イノベーションのペースダウン、社員の疲弊、法的・規制上の影響、株価への影響などを考慮し、損害額を提示してもらったところ、1分あたりのダウンタイムコストは74万円、1時間換算だと4440万円と見積もっているという回答を得られました。障害の増加傾向、大きな損害額から、セキュリティーやBCP(事業継続計画)と同様、持続的成長の要素としてシステム障害対応を捉えるべきです」(山根氏)

日本企業は障害発生から修復まで6時間以上
メディアの報道、SNSの炎上、ブランド失墜……

重大システム障害が発生した場合は時間との競争になる。影響や被害を最小化するために、いかに障害対応時間(発生の検知から解決まで)を短縮するか。PagerDutyの調査結果によると、日本企業の平均対応時間は6時間12分(372分)。先述の「推定損害額52億円」という数字は、このデータとアンケート回答をもとに算出したものだ。

重大システム障害において障害の発生から解決に要した平均的な対応時間(MTTR)

もし、深夜に障害が発生した場合、6時間12分という時間は営業開始まで解決しない可能性が高いことを示す。
始業時間に障害の発生を認めた場合は、半日は業務が動かないことになる

損害額だけでなく、ブランドイメージに与える影響も計り知れないと山根氏は指摘し説明する。

「障害対応に6時間以上かかるということは、お客様や取引先に影響が出るだけでなく、メディアが障害発生に気づき、インターネット上で炎上が始まる可能性も出ててきます。ブランド毀損、社会的信用失墜を最小限に抑えるうえで、修復時間の短縮とともに、迅速かつ的確に対外向けコメントを出せる体制整備が不可欠です」

システム障害修復作業にかかる時間

システム障害対応の自動化を行うことで、障害修復にかかる時間を大幅に短縮できる。ある事例では自動化によって、
平均修復時間を2時間15分(280分)にまで抑えることができた(自動化によるメリットの詳細は「第2回」にて)

重大システム障害対応では、経営者の姿勢も問われる。障害発生の一報を受けた経営者は、CIO(最高情報責任者)、CTO(最高技術責任者)に連絡して状況を把握し、顧客に対してだけでなく、政府機関、影響を及ぼすサプライチェーンに対し現状と修復対応に関する報告の指示を出す。また、社会的責任の観点から、経営者自らが矢面に立って説明責任を果たすことも重要だ。

PagerDutyはグローバルでも同様の調査を実施。障害対応時間が損害額と相関関係にあることが明確となった。「今回の調査結果では、年間重大システム障害はグローバルのほうが多く発生していました。しかし推定損害額は、日本企業の52億円に対し、グローバルは28億円。ポイントは、障害対応時間が日本企業の6時間12分に対し、グローバルは2時間55分(175分)だったことです」。

グローバルの被害コスト平均よりも2倍近い被害コストが発生

システム障害がより多く発生している海外企業よりも、日本企業は2倍近い推定損害額が発生していた

システム障害対応の自動化が遅れる日本企業
障害対応時間は2倍以上、推定損害額は1.8倍

日本企業はグローバルと比較し、障害対応時間は2倍以上、推定損害額は1.8倍。この差はどこから生まれるのか。日本とグローバルの調査結果を比較すると、その要因が浮彫りとなった。

「システム障害対応ツールに十分な投資をしている」との回答率が、グローバルは46%に対し、日本はわずか12%となったのだ。日本企業は、システム障害を経営課題として捉えていない現状が窺える。その理由を、山根氏は次のように分析する。

システム障害対応ツールに十分な投資をしている

日本はグローバルと比較し、システム障害対応への投資意欲が非常に低い結果に

「一般的に、日本企業は海外企業と比べてITシステム運用やソフトウエア開発をアウトソースする比率が高いといわれています。本調査でも、すべてのITシステム運用を自社で行っていると回答した企業は11%でした。アウトソースすることで、経営者および情報システム部門においてシステム障害対応を『自分ごと』として認識する感度が低下していることが推測できます。障害発生により取引先や顧客に影響が出た場合、最終責任は委託業者ではなく、障害を発生した企業にあることはいうまでもありません。海外企業がシステム障害対応に投資する理由は、責任の所在を痛感しているからだと考えられます」

障害対応時間の短縮では、システム障害対応における自動化が重要なポイントとなる。調査では、「システム障害対応の自動化を進めている」との回答率は、グローバルが38%に対し、日本は10%。

エンドツーエンドのシステム障害対応の自動化を進めている

グローバルと日本企業の大きな違いの一つは、自動化の進行状況にある

他部署との連携、診断・トラブルシューティング、障害の修復作業、社内ステークホルダーへの連絡、障害に関する記録、外部コミュニケーションなど、多くのタスクをマニュアルで行っていることも分かった。

マニュアルで行っているインシデント対応作業

日本企業はシステム障害対応の多くをマニュアル対応しており、
自動化の遅れが障害対応時間の遅延に表れている

経営の観点では障害対応時間の遅延とともに、現場からの情報をリアルタイムで把握できないことも重要な課題となる。現場は障害対応に追われており、経営層に対し報告が遅れがちになるからだ。

マニュアル作業からの脱却では、生成AIを活用した自動化のメリットが大きい。「PagerDuty Operations Cloudには、現場担当者の代わりに、生成AIが経営層に向けて障害対応の現状報告を行う機能があります。経営層は障害対応の進捗を常に把握できるため、対策の指示や関係者への報告の迅速化、正確性向上を実現できます。また、現場は障害対応に専念できます」(山根氏)。

PagerDutyのデジタル運用管理プラットフォーム「PagerDuty Operation Cloud」は、障害発生検知後、トリアージ(障害の特定・自動処理)、動員(最適な担当者に通知)、協力・解決、学習・予防まで、システム障害対応のライフサイクル全体をサポートする。

PagerDutyが実現するエンド・ツー・エンドのインシデント管理

デジタル運用管理のプラットフォーム「PagerDuty Operation Cloud」を通して、
システム障害対応をエンド・ツー・エンドでサポートする

PagerDutyは、29000社以上、100万人以上のユーザーから信頼を得ている。Fortune 100の70%以上が「PagerDuty Operation Cloud」を利用しており、日本においてもさまざまな業界の企業が利用している。システム障害発生によるビジネスや人々の生活に及ぼす影響を最小化するためだ。

「PagerDuty Operation Cloud」の導入実績と評価

「PagerDuty Operation Cloud」の導入実績と評価

2022年にPagerDutyの日本法人設立以来、国内企業の導入実績は400社に及ぶ。数名の企業から日本を代表する大企業まで、企業規模や業界を問わず採用が進んでいる。「2024年8月に開催されたPagerDuty on Tourというフラッグシップイベントでは、トヨタ自動車様、ANAシステムズ様、日本電気様、JR東日本情報システム様などから実際の利用事例のご紹介を通じて、日本市場でのシステム障害対応の重要性について課題と対応例を共有いただきました。今後は事業継続、社会的責任に加え、自動化によるIT人材不足解消の観点からも利用が拡大すると考えています」(山根氏)。

システム障害対応の自動化は、企業の経営基盤とブランドを守る。DXを進めるIT人材活用にも道を開く。

お問い合わせ

PagerDuty

WEBサイトはこちら