AWS東京リージョンの障害に学ぶ自動化ベースで高可用性を実現する方法

クラウド基盤最適化 Forum

サイオステクノロジー

AWS東京リージョンの障害に学ぶ
自動化ベースで高可用性を実現する方法

パブリッククラウドサービスのSLAは非常に高いが、100％ではない。障害が発生すればビジネスは大きなダメージを受けるため、常に備えておくことが肝心だ。多くのユーザーがその重要性を思い知らされたのが、2025年4月15日に起きたAWS東京リージョンの大規模障害だろう。クラウド時代も、自分たちのシステムは自分たちで守る。サイオステクノロジーは、そのために必要な考え方と具体的な手法を紹介した。

AWSの大規模障害で
浮き彫りになった教訓とは

2025年4月15日、AWS東京リージョンで大規模障害が発生した。可用性ゾーン（AZ）の主電源と予備電源の両方が遮断された結果、AZ内のAmazon EC2インスタンスや関連サービスに接続障害やAPIエラーが発生。AWSは障害発生から数分以内に対応を開始し、障害は約1時間で復旧したが、その間、多くのユーザーがサービスの停止や遅延の被害を受けた。一部のインスタンスやボリュームは、ユーザーによる手動での再起動や再構築が必要になったという。

「近年、クラウドのインフラ品質やSLAは大きく向上しています。モニタリングなどのツール群も拡充されており、ユーザー側でも細かな管理・運用が可能になりました。そのため『シングルAZ構成でも可用性は確保できる』と考えるお客様は多いようですが、残念ながらそれは誤解です」。そう語るのはサイオステクノロジーの西下容史氏だ。同社は、2012年からAWSパートナーネットワークに参加しているソリューションベンダーである。

例えば、データセンター側の電源や空調などに起因する障害の可能性はゼロではない。AWS東京リージョンの大規模障害はそのことを象徴するできごとと言えるだろう。

クラウドユーザーは、これを教訓として「自分たちのシステムは自分たちで守る」方法を確立する必要がある。考えるべきポイントは大きく3つだ。

1つ目は、高可用性設計の責任範囲である。パブリッククラウドサービスは責任共有モデルに基づいてサービスを提供している。責任共有モデルとは、可用性や信頼性についてどこまでクラウド事業が責任を持ち、どこからユーザーが責任を持つかを定義したものだ。

基盤からアプリケーションまでを提供するSaaSはクラウド事業者の責任範囲が広いが、PaaSの場合はアプリケーションの責任をユーザーが持つ。基盤のみ利用するIaaSは、OS、ミドルウエア、アプリケーションまでがユーザーの責任範囲となる。「自由度が高いほどユーザー側の責任範囲も大きくなります。今回の障害は、クラウド基盤の物理トラブルがユーザーシステムに影響を及ぼしました。クラウドのインフラがどんなに高品質でも、ユーザー自身が責任範囲を把握して、システムに責任を持つことが大切です」と西下氏は言う。

2つ目はAZ構成。今回の障害は多くのシステムが単一のAZに依存した構成だったことが被害の拡大につながった。マルチAZによる冗長構成をとっていれば、耐障害性や可用性を高められた可能性があるだろう。自社システムの構成を見直すことが肝心だ。

そして3つ目が自動復旧だ。障害発生時、人的オペレーションによる復旧対応では手間も時間もかかる。リソース状態やサービス稼働状況をリアルタイムに把握するとともに、復旧を自動化するような仕組みが求められる。「これにより、障害の早期発見と迅速な対処が可能になり、復旧時間を大幅に短縮できます」と西下氏は述べる。

多様な環境／構成の高可用性を
実現するLifeKeeper

サイオステクノロジーは、これらのポイントを押さえたクラウド環境の構築を支援するソリューションとして、HAクラスター製品「LifeKeeper」を提供している（図1）。

図1　LifeKeeperの利用イメージ（Amazon EC2環境）

稼働系の仮想マシンの障害や、稼働系の仮想マシン上で動いている保護対象のソフトウエアの障害をLifeKeeperが検知すると、待機系のAZに自動的にフェイルオーバーする。データはDataKeeperが提供する論理的な共有ディスクにレプリケーションする。最小限の時間にて自動で復旧するため、ビジネスを止めずに済む

物理／仮想／クラウド環境に対応し、仮想マシンやアプリケーションの監視と復旧を自動化する。データに関しては、LifeKeeperと連動するデータレプリケーション製品「DataKeeper」がブロックレベルのリアルタイム同期により論理的な共有ディスクを提供。これを利用することで稼働系／待機系間のデータレプリケーションを行う。

「クラウド事業者の障害対策では足りない部分をカバーすることで、さらに高い可用性を実現します。分かりやすいGUIで設計・開発できるのも特徴です」と西下氏。また、LifeKeeperは一般的なHAクラスター製品と同様に、個別に制御スクリプトを作成してアプリケーションの監視や切り替えを制御することも可能だが、オプションの「アプリケーション・リカバリキット（ARK）」を利用すれば、JP1/AJS3、HULFT、Oracleなどのソフトウエアを制御スクリプトの開発無しで容易に監視・切り替えの対象にすることが可能だ。

LifeKeeperはこれまでグローバルで8万ライセンス超の導入実績を有している。中でもAmazon EC2環境では国内600件以上の導入実績があるほか、Microsoft Azure環境でも多く利用されている。また、Oracle Cloud Infrastructure（OCI）やGoogle Cloudなどで利用するユーザーも多いという。

Amazon EC2の様々な構成にも柔軟に対応できる。例えば、仮想IPを使用した通信方式（ルートテーブルシナリオ）のマルチAZ対応も可能だ。「AWS環境ではAZをまたぐとサブネットもまたぐため、仮想IPアドレスが稼働系ノードと待機系ノードの間で切り替わるだけでは通信を制御できません。そこでLifeKeeperは、統合管理ツールのAWS CLIを介してルートテーブルを制御し、ターゲットアドレスをフェイルオーバー時に待機系のENIに書き換えます。これにより、クライアントは仮想IPアドレスに向けることで、アクティブなノードに通信できるようになります」と西下氏は話す。

AWS Transit Gatewayとの組み合わせも可能。クライアントがオンプレミスからAmazon EC2環境上のHAクラスターに通信してくる構成においても、製品の標準機能で高い可用性を発揮するという（図2）。

図2　AWS Transit Gatewayとの組み合わせイメージ

ルートテーブルシナリオでは、VPCの外にあるクライアントからの仮想IPに向けた通信は行えない。AWS Transit Gatewayを経由すれば、これが可能になる。クラウド間の連携や他拠点展開の構成でも障害による影響を最小化し、業務継続性を向上する

なお、システムの可用性レベルやコスト面から、必ずしもマルチAZ構成を必要としない場合もある。このようなシングルAZでのシングル構成も実現可能だ。この場合は「Single Server Protection」が対応する。LifeKeeperの兄弟製品だが、アプリケーションの障害復旧に特化した製品で、アプリケーションやOSの再起動により復旧する製品だ。「お客様のクラウド活用戦略に合わせて、最適な仕組みをご提供します」と西下氏は語る。

パートナーとの協業の下、
環境構築も支援する

また、サイオステクノロジーは、パートナーのSIベンダーとの協業に基づき、顧客への技術支援やシステム構築支援も行っている。国内でも多くの企業システムの可用性向上を実現しているという。

空調設備工事大手の高砂熱学工業はその1社だ。メインフレームの基幹システムをMicrosoft Azure（IaaS）上のSAP HANAにリプレースする際、可用性・信頼性確保のためにLifeKeeperを導入した。SAPの認定ソリューションであること、稼働系／待機系の同時起動を防ぐクォーラム機能が標準で備わっていることなどが採用の理由だったという。HANAではデータはSAP HANAのレプリケーション機能（HSR：HANA System Replication）で冗長化されているが、これをLifeKeeperの「SAP HANA Recovery Kit」を用いて実現した。

重要システムの基盤としてクラウドが使われるようになった現在、クラウドの可用性、信頼性向上は企業・組織の常なる課題だ。サイオステクノロジーのLifeKeeperは、最適な環境構築を支えるソリューションとなるだろう。