AI開発に必要な計算資源が足りない！競合に“圧倒的格差”をつける最新戦略とは

自社固有のAIを社内で開発する。
AIベンダーだけではなく一般企業でも、
この取り組みを始めるところが増えてきた。
ここで大きな課題になっているのが、学習に必要なGPUの調達と学習環境の整備だ。
またいったん環境を整備しても、必要な計算資源が増大し、
リソース不足に悩むケースも少なくない。
そこでここではAI開発に必要なリソースを、手軽に拡張する方法について紹介したい。

自社固有のAIを社内で開発する。AIベンダーだけではなく一般企業でも、この取り組みを始めるところが増えてきた。ここで大きな課題になっているのが、学習に必要なGPUの調達と学習環境の整備だ。またいったん環境を整備しても、必要な計算資源が増大し、リソース不足に悩むケースも少なくない。そこでここではAI開発に必要なリソースを、手軽に拡張する方法について紹介したい。

前編
後編

急速に進化するGPUの
自社保有は大きなリスクに

　汎用的な学習済みモデルの利用から、自社固有のナレッジを組み込んだ大規模言語モデル（LLM）へ――。生成AIの活用は、既に次のフェーズに入りつつある。ナレッジの組み込み方法も、当初はプロンプト生成の段階で社内データベースやドキュメントを参照させるRAG（検索拡張生成）を採用するケースが多かったが、最近では社内データを学習させ独自のLLMをつくり出す、という企業も増えてきた。その一方で、画像認識などを行う認識系AIや、過去のデータから未来の動向を予測する予測系AIなどを、社内で学習させて精度を高めていこうという取り組みも目立つようになっている。

GMOインターネット株式会社
ドメイン・クラウド事業本部
GPUクラウド事業部部長

武田茂氏

　こうした「独自AIの開発」「社内データの学習」が増えてきた背景の1つに、GPUの進化がある。つまり、学習に不可欠な高い処理能力が利用しやすくなったのである。既にAIの社内開発に取り組んでいる企業であれば、数年前との違いを如実に感じているはずだ。

　「ただし進化が速いということは、陳腐化も速いということになります。GPUのライフサイクルは非常に早く、1～2年で古くなってしまう。そのためGPUを購入して自社資産にすることは、リスクにつながる危険性も高いのです」と指摘するのは、GMOインターネット株式会社（以下、GMO）のGPUクラウド事業部で部長を務める武田茂氏だ。

GMOインターネット株式会社
システム本部
プロジェクト統括
エグゼクティブリード

佐藤嘉昌氏

　また、AI開発に求められる処理能力が急増していることも、GPUを自社で調達し続けることのハードルとなっている。

　例えばLLMのパラメーター数は、GPTの初期バージョンでは1億程度だったのに対し、GPT-3.5では3000億以上、GPT-4では1兆以上になったといわれている。これ以外の生成AIも、数千億～1兆パラメーターのものが珍しくない。

　「既に旧世代のGPUでは、現実的な時間で学習することもままならなくなっています。例えば、2022年10月にリリースされた『GeForce RTX 4090』の場合、わずか80億パラメーターのLlama 3.1 8Bで1エポックの学習を行うだけでも、50時間以上かかります」と語るのは、GMOシステム本部の佐藤嘉昌氏だ。

環境構築に時間と手間がかかるのも
大きな問題

　このように必要となる処理能力が急増する中、新世代のGPUが次々と登場し世代交代が激しい状況でどう扱うべきか、頭を悩ませている企業は少なくない。自社で調達するのはリスクが高いため、クラウド利用を検討しているケースも多いはずだ。

GMOインターネット株式会社
システム本部
ソフトウェア・仮想化技術部
仮想化技術チーム

大川将史氏

　しかし「単にクラウド化しただけでは、AI開発の現場が直面している課題を解決することはできません」とGMO システム本部の大川将史氏は指摘する。

　「最近よく聞く話は、『GPUを提供するハイパースケーラーを利用しても、思ったような処理能力が得られない』ということ。GPUをほかのユーザーと共用しているため、リソースの取り合いになることが少なくないのです。またGPUサーバーをそのまま貸し出すサービスでは、OSのインストールからAI学習に必要なライブラリなどの整備も含め、すべて自分たちでやらなければなりません。インフラエンジニアが潤沢な企業であればいいのですが、そうでない場合にはAIエンジニア自身が環境整備を行う必要があり、本来AI開発に専念すべき人材の時間がムダに費やされてしまうことになります」（大川氏）

　このような問題を解消するために、GMOが2024年11月に提供を開始したのが「GMO GPUクラウド」である。

　これは国内初となる「NVIDIA H200 Tensor コアGPU」（以下、NVIDIA H200）のクラスター化を実現したクラウドサービス。ネットワークには、これも国内クラウド事業者として初めて、AIワークロードに最適化されたイーサネットスイッチ「NVIDIA Spectrum-X」を採用している。さらに、NVIDIA BlueField-3によるクラウドネットワークアクセラレーションやDDNの超高速ストレージも導入。最新GPUをクラスターで利用できるだけではなく、その能力を十二分に引き出せる構成になっているのだ。

図1「GMO GPUクラウド」のシステム構成

GPUサーバー（ノード）にはNVIDIA H200が8基搭載されており、ノード間は高速スイッチ「NVIDIA Spectrum-X」で接続されている

インフラ技術者なしで
高い処理能力をすぐに利用可能

　GMO GPUクラウドには、大きく3つの特長がある。1つ目は「安全・安心」である。GMOとNVIDIA社との間には強力なパートナーシップがあり、GMO GPUクラウドの環境はNVIDIAの推奨構成を採用している。そのため「GPUメモリやノード数を増やしても期待していたパフォーマンスが出ない」といったことを回避できるわけだ。「国内サービスでこの構成を採用しているのは、GMO GPUクラウドだけです」と武田氏は話す。国内データセンターに立地することで、海外クラウドサービスと比較して低レイテンシーでの利用が可能なことも、安全・安心の要因の1つだ。データの国外持ち出しを避けたい企業にとっても重要なポイントとなる。

　2つ目は「コストパフォーマンスの高さ」だ。GMO GPUクラウドは、2024年11月の「スーパーコンピュータランキングTOP500」の中で、世界37位、国内6位、商用クラウドサービスでは国内1位のパフォーマンスを記録した。さらに、省電力性能を評価する「Green500」ランキング（2025年6月）でも国内1位の電力効率性能をマークし、高い計算性能と環境性能の両立を実現している。

　なお前述の「GeForce RTX 4090で50時間以上かかる」Llama 3.1 8Bの学習も、わずか1GPUノードで約28分、8GPUノードでは約4分で完了するという。「処理時間が短くなれば、それだけ多くの試行を行うことができ、より高精度なモデルを構築しやすくなります」と佐藤氏は説明する。

　そして最後の3つ目は、「ユーザーが環境構築を行う必要がない」という点だ。

　「国内の他社サービスではGPU搭載サーバーをベアメタルとして提供しているケースが一般的ですが、GMO GPUクラウドでは生成AI開発や機械学習に必要な実行環境やソフトウエアスタック、ライブラリを標準搭載した状態でご提供しています」と佐藤氏。その具体的な内容について、大川氏は次のように説明する。

　「まず、生成AIアプリケーションの開発と展開を合理的に実施できる『NVIDIA AI Enterprise』をプラットフォームとして実装し、一元管理された幅広いソフトウエアや管理ツール、ワークロードなどを提供。さらに、業界標準のジョブスケジューラー『Slurm』を組み合わせることで、超高速環境を簡単に利用できるようにしています」

　つまりGMO GPUクラウドを利用することで、AI開発にすぐ着手できるわけだ。「GPUリソースが不足しているのでAI開発環境を拡張したいが、インフラエンジニアを確保できない」といった悩みも解決可能。AIエンジニアの貴重な時間をインフラ構築に費やしてしまう、といったムダも回避できる。

図2「GMO GPUクラウド」の3つの特長

「安全・安心」かつ「高いコストパフォーマンス」の環境で、「開発に専念」できる。これならインフラエンジニアが確保しにくい場合でも、簡単に計算資源を拡張することが可能になる

専用／共用のシンプルな2プラン、
事前PoCでの検証も可能

　提供されているプランは、GPUサーバーリソースを独占できる「専用プラン」と、GPUサーバーリソースを共用する「共用プラン」の2種類。前者はサーバー1台あたりの月額課金、後者はサーバー1台あたり／分単位の課金となる。カスタマイズしながら混雑状況を気にせずに使いたい場合には専用プラン、毎月の利用量が明確でない／定常的な利用ではなく短時間で大量のジョブを流すことが多い場合には、共用が適している。なおシステム構成や性能にはプラン間の差異はなく、いずれのプランでも15TiBのローカルストレージと1ユーザー当たり100GiBのホーム領域が無料で提供される。

図3「GMO GPUクラウド」の2つの利用プラン

　ここで注目したいのが、本契約をする前に特別価格でPoCが行えることだ。

　「一般にはGPU数に比例したパフォーマンスが上がると考えられていますが、処理内容によってはデータ転送がボトルネックになり処理時間が長くなることもあります」と大川氏。ほかにも机上の検討だけでは見つけにくい問題を事前に洗い出しやすくなり、どのプランで対処すべきかの判断も適切に下しやすくなるだろう。

　AI開発における「時間」という最も貴重なリソースを、インフラ整備に費やしている余裕はもうない。GMO GPUクラウドのように、高いパフォーマンスを発揮するGPUクラスターをすぐに使い始められるサービスがあれば、GPU不足の悩みを解消できる。また、インフラエンジニアの手が回らない状況でも、AIエンジニアだけで問題を解決できるのである。これが、AI開発の新たなスタンダードとして、今後の企業競争力を左右する重要な要素となっていくだろう。

急速に進化するGPUの自社保有は大きなリスクに

環境構築に時間と手間がかかるのも大きな問題

インフラ技術者なしで高い処理能力をすぐに利用可能

専用／共用のシンプルな2プラン、事前PoCでの検証も可能

急速に進化するGPUの
自社保有は大きなリスクに

環境構築に時間と手間がかかるのも
大きな問題

インフラ技術者なしで
高い処理能力をすぐに利用可能

専用／共用のシンプルな2プラン、
事前PoCでの検証も可能