挑戦者たちのGPU革命――国内最速の商用クラウドを達成するまで

生成AIの進化が、かつてない計算力を求めている──。
そのニーズに応えるべく、2024年11月にGMOインターネットが
提供を開始したのが「GMO GPUクラウド」だ。
その大きな特徴は、NVIDIA H200などの
最先端ハードウエアを採用することで
商用クラウドとして「国内最速」を実現していること。
だが、その裏には、数々の課題と向き合いながら、
技術者たちが積み重ねてきた努力と工夫があった。
本稿では、その舞台裏に迫る。

生成AIの進化が、かつてない計算力を求めている──。
そのニーズに応えるべく、2024年11月にGMOインターネットが提供を開始したのが「GMO GPUクラウド」だ。
その大きな特徴は、NVIDIA H200などの最先端ハードウエアを採用することで商用クラウドとして「国内最速」を実現していること。
だが、その裏には、数々の課題と向き合いながら、技術者たちが積み重ねてきた努力と工夫があった。
本稿では、その舞台裏に迫る。

前編
後編

「AIでNo.1」を掲げ、
GPUクラウドでも最速を目指す

　2022年11月、ChatGPTの登場をきっかけに、生成AIの活用が一気に広がった。企業は公開された大規模言語モデル（LLM）を活用するだけでなく、RAG（検索拡張生成）やエージェント型AIの導入など、より高度な活用へと進んでいる。

　最近では公開されている大規模言語モデル（LLM）をそのまま使うだけでなく、RAG（検索拡張生成）を活用して自社データを組み合わせ、回答精度を高める取り組みも進んでいる。さらに、生成AIをエージェントとして業務に組み込み、判断や実行を任せるケースも出てきた。

　こうした流れの中で、日本企業による独自のLLM開発も増加。それに伴い、従来のクラウドでは対応しきれないほどのデータ処理能力が求められるようになっていた。

　この状況を受け、GMOインターネットグループのGMOインターネット株式会社（以下、GMO）は2024年11月、NVIDIA H200 Tensor コアGPU（以下、NVIDIA H200）を採用した高性能GPUクラウド「GMO GPUクラウド」の提供を開始した。これは国内最速を記録した商用クラウドだ。

　もちろん、同社がGPUクラウドを提供するのは今に始まったことではない。「当社は長年にわたり、ホスティングや商用クラウドの提供を行ってきました。GPUを搭載したクラウドサービスも、2018年には既にスタートしています」

　こう語るのは、GMO ドメイン・クラウド事業本部 GPUクラウド事業部部長の武田茂氏だ。2023年11月には、当時の最新モデルであるNVIDIA H100およびNVIDIA L4を搭載したGPUサーバーを、高性能なVPSサービス「ConoHa VPS」で提供するなど、先進的な取り組みを続けてきた。

GMOインターネット株式会社
ドメイン・クラウド事業本部
GPUクラウド事業部部長

武田茂氏

　「私たちは『AIで未来を創るNo.1企業グループへ』というスローガンを掲げ、GMOインターネットグループ内でもAIを積極的に活用してきました。2025年3月には生成AIの業務活用率が90％を突破、これによって月間17万時間を超える業務効率化を実現しています。もちろんこのスローガンは、自社だけではなくお客様の生成AI活用を加速していくことも含まれています。そのため、生成AIの学習・開発に必要な膨大なデータ処理を支えるインフラを提供することは、私たちの重要な使命だと考えました」（武田氏）

　「国内最速の性能を、誰よりも早く実現する」というのは、GMO GPUクラウドに課せられたミッションだったのである。

最新のH200をクラスター化──
最初の関門はGPU調達

　プロジェクトが本格的に動き出したのは、2024年4月のこと。その背景には、経済産業省による「クラウドプログラム」の存在があった。安定供給確保のための計画を提出し、認定を受けた事業者に対して支援が行われるという制度だ。

　GMOはこの制度に申請し、採択を受けたことで、プロジェクトは一気に加速していく。プロジェクトを統括したのは、GMO システム本部の佐藤嘉昌氏。「4月の採択と同時に、社内から50人以上のエンジニアが集まりました」と佐藤氏は振り返る。

　大学時代からAIを専攻していたAI技術者や、ストレージの専門家、オープンソースソフトウエアの専門家など、各分野のプロフェッショナルが一堂に会した。

GMOインターネット株式会社
システム本部
プロジェクト統括
エグゼクティブリード

佐藤嘉昌氏

　並行して進められたのが、サーバーの発注だ。基本方針は明確だった。それは「最新・最速のNVIDIA H200を採用し、それをクラスター構成で運用すること」。

　既にNVIDIA H100を用いたGPUホスティングサービスの提供実績があったGMOにとって、H200は必達の要件だった。「H200はH100と同じHopperアーキテクチャを採用しつつ、メモリ容量が1.7倍、帯域も拡大されています。既存のノウハウを生かしながら、より高性能な環境を構築できると判断しました」と佐藤氏は語る。

　しかし、ここで大きな壁が立ちはだかる。それはGPUの枯渇である。多くの読者がご記憶のことかもしれないが、この時期はGPUに搭載するメモリ容量の増大に伴い、「CoWoS^※1」と呼ばれる半導体の高性能パッケージング工程のキャパシティがひっ迫、GPUの供給が停滞していた。そのためGPU争奪戦が世界中で起きていたのだ。

　そのため、このプロジェクトがいつから実施できるかは、サーバーの納入時期に依存することになり、まずは世界的なGPU争奪戦に打ち勝つ必要があった。そのためGMOではトップ交渉も含め、NVIDIAとディスカッションしながら調達に向けた取り組みを推進。最終的に2024年8月の初旬の納品を実現している。佐藤氏は「これが可能になったのは、長年にわたるNVIDIAとのパートナーシップのおかげです」と述べる。

※1　: CoWoS（Chip on Wafer on Substrate）：半導体チップを高密度で接続するためのパッケージング技術。AI向けコンピューティングなど、高い性能が求められる半導体製品で活用されている

怪物、襲来──
113kgのサーバーが並ぶ

　納品されたサーバーは、まさに“重量級”だった。1台あたり6Uサイズ、重量113kg、消費電力は1万1000Wを超える。合計96ノード／768GPUという、まさに「怪物」といってもいい構成だった。これらをデータセンターに設置するだけでも大変だが、接続のための光ファイバーも膨大な量だった。さらに、排熱をどうするのか、ファンの騒音にどう対処するかも大きな課題となったという。

GPUクラスターを構成するためのサーバー群が納入されたときの様子。1台あたり重量113kg、合計96ノードがデータセンターに設置された。GPUの総数は768枚に上る

　これらの課題をクリアした上で、GPUクラスターの構築が始まったのが2024年9月。世界各国で活動するNVIDIAのエンジニアも参画し、NVIDIAのリファレンスアーキテクチャに基づくシステムが構築された。さらに、パフォーマンスを最大化するためのトライアル＆エラーも、10月中旬まで繰り返されていったのである。

　そして2024年11月には、スーパーコンピュータの性能ランキング「TOP500」の2024年11月版において、38.06PFLOPS（ペタフロップス）というLINPACK性能^※2を叩き出し、世界第37位、国内第6位にランクイン。国内商用クラウドサービスとしては、国内第1位の結果となった。

「TOP500」で世界第37位にランクインしたことを証明する認定書

国内では第6位にランクインしており、国内商用クラウドサービスとしては第1位となっている

※2　: LINPACK性能：スーパーコンピュータや高性能計算システムの処理能力を測る指標の1つ

ソフトウエア環境の整備──
「確実に動く」への執念

GMOインターネット株式会社
システム本部
ソフトウェア・仮想化技術部
仮想化技術チーム

大川将史氏

　GPUクラスターの構築が完了しても、それはまだ“完成”ではなかった。GMOが目指したのは、誰もが簡単に使える超高速GPUクラウド。そのためには、ソフトウエア環境の整備が不可欠だったからだ。この工程を担ったのが、GPUクラウドサービスのインフラ設計・構築を担当する、仮想化技術チームの大川将史氏である。

　「GPUクラスターの基盤はできましたが、これは車でいえばシャーシー。お客様に提供するには、この上にソフトウエアというボディを載せなければなりません」

　ただし、10月中旬まではGPUクラスターのハードウエアチューニングが行われていたため、実際のGPUクラスターを使うことはできなかった。そのため社内のNVIDIA H100をかき集めた開発環境で、ソフトウエア構成の検討を進めていくことになった。

　「NVIDIA H200もNVIDIA Hopperアーキテクチャなので、大きな違いはないはず。しかしクラスター化されたGPUの挙動については再現できないため、この部分は机上で検討を行い、差異が生じたら気合いで解消しようと覚悟を決めていました。このときに最も大変だったのは、NVIDIA H200クラスターに関する情報がほとんどなかったこと。ネット上にも全くといってよいほど事例がなく、NVIDIAの膨大なマニュアルやドキュメントを読み込みながら、『これなら確実に動く』という構成を探り続けました。ただ、確信が持てない中での設計は、精神的にも厳しいものがありました」（大川氏）

眠れぬ夜を越えて──
前倒しリリースの舞台裏

　2024年10月中旬、ようやくH200クラスターが使用可能となり、実機での検証が始まる。ただ、既に2024年12月までにはサービスリリースすることが決まっていたため、緊迫感のある日々が続いたと大川氏は振り返る。

　実機での検証では「思わぬ挙動」も出てきたものの、セキュリティー機能やライブラリなど、ほぼ想定通りの環境が整備できた。事前検討を綿密に行ったことが功を奏し、わずか1カ月でソフトウエア環境の検証を終えることができた。長年クラウドインフラを構築してきた経験が、ここで生きたわけだ。

　「一般的なプロジェクトなら、1年以上かかってもおかしくない内容だったと思います」と大川氏は振り返る。

　こうしたエンジニア達の努力が結実し、当初12月を予定していたサービス提供開始は、2024年11月22日へと前倒しされる。「TOP500」ランクインの発表が11月19日。そのわずか3日後のリリースは、まさに運命的な展開となった。

国内初、国内最速、
そして“伴走するクラウド”へ

　リリースされた「GMO GPUクラウド」は、国内初となるNVIDIA H200のクラスター化を実現。ネットワークには、国内クラウド事業者として初めて「NVIDIA Spectrum-X」を採用。これは、AIワークロードに最適化されたイーサネットスイッチであり、通信の高速化と安定性を両立するもの。

　さらに、NVIDIA BlueField-3によるクラウドネットワークアクセラレーションやDDNの超高速ストレージも導入されている。一方ソフトウエア環境には、生成AIアプリケーションの開発と展開を合理的に実施できる「NVIDIA AI Enterprise」を実装。これに、業界標準のジョブスケジューラー「Slurm」を組み合わせることで、超高速環境を簡単に利用できるようにしている。

2024年11月にリリースされた「GMO GPUクラウド」の特長

NVIDIA H200をクラスター化しているほか、AIワークロード向けイーサネットスイッチ「NVIDIA Spectrum-X」を国内クラウド事業者として初採用、DDNの超高速ストレージも実装している。またソフトウエアとしては「NVIDIA AI Enterprise」と「Slurm」を組み合わせ、超高速環境を簡単に利用できるようにしている

　このような点が評価され、既にAIロボット協会（AIRoA）や、自動運転AIを開発するチューリング、日本電気（NEC）などが正式採用。これらの顧客の中には「GPUクラウドを提供する事業者の中でも、技術的な話をきちんとできるのはGMOだけ」と指摘する企業もあったという。

　「より多くの方が、最先端のGPUを簡単に使える環境を提供する。それが、私たちの使命です」――武田氏の言葉には、これまでの歩みと、これからへの決意が込められている。生成AIの進化は、まだ始まったばかり。その未来を支えるインフラとして、同社ではGMO GPUクラウドを、今後も継続的に進化させていく考えだ。

「AIでNo.1」を掲げ、GPUクラウドでも最速を目指す

最新のH200をクラスター化──最初の関門はGPU調達

怪物、襲来──113kgのサーバーが並ぶ

ソフトウエア環境の整備──「確実に動く」への執念