ONLINE SEMINAR Review ITインフラSummit 2024 Summer 生成AI活用を支えるIT基盤を探る

ONLINE SEMINAR Review ITインフラSummit 2024 Summer 生成AI活用を支えるIT基盤を探る

AI・デジタルツイン・データ基盤Forum

データダイレクト・ネットワークス・ジャパン

AI活用を支えるインフラ
~データ管理は?運用は?

データダイレクト・ネットワークス・ジャパン
シニアシステムズエンジニア
塩入ヶ谷 寛

短期間で大規模なAIシステムを構築可能

DDNは、NVIDIA社にも採用されており、何世代にもわたって検証・リファレンスアーキテクチャを作成している。NVIDIAのスーパーコンピューターSeleneは、560台のNVIDIA DGX A100と、DDNのHPCやAIに特化したストレージシステムAI400Xを40台利用している。塩入ヶ谷氏は、「この構成はNVIDIAによってテスト・検証されており、それぞれ1台の構成から、最大この規模まで安心してご利用いただけます」と胸を張る。

2023年に登場したNVIDIA EOSでは、512台のNVIDIA DGX H100(4096台のNVIDIA DGX H100 GPU)、48台のDDN AI400X2を利用。Read約4.3TB/s、Write約3.1TB/sのパフォーマンスを実現した。

昨年このNVIDIAとDDNのリファレンスをもとに、10PBのストレージ容量を持つ国内最大級の生成AIシステムを導入した企業では、Read約1.7TB/s、Write約1.4TB/sという非常に優れた性能を実現している。「NVIDIAとのリファレンスモデルなので、大規模にもかかわらず破格のスピード感で構築できました」(塩入ヶ谷氏)。

ではGPUに対してどのくらいのストレージ性能が必要なのだろうか。下記の表にNVIDIA EOSの指標とCustomerB以降に顧客環境にて実測したGPU当たりのパフォーマンスを示す。1列目NVIDIA EOSの構成では、GPU1台当たりのストレージ性能Read 1GB/s、Write 750MB/sを指標としている。この指標どおりに必ずいつも必要というわけではないが、問題が発生した時や将来への対応ということも含めて参考にしてほしい。

テキストベースのLLMの場合、NVIDIA EOSに近い値になるよう構築することが多い。ただし、今後マルチモーダルAIになるとCustomerC程度の値が必要となることが予想される

さらに塩入ヶ谷氏は、AIインフラの構成例を2つ紹介。1つは多く利用者がジョブスケジューラーを使ってGPUを共有する構成で、HPCはこのタイプが多かった。この構成では、計算機にフロントエンドサーバー経由でジョブを投入。ジョブスケジューラーにリソースを管理させる。これは多くの利用者に開放するモデルに適した環境だが、リソースが不足すると待ちが発生する。

もう1つの構成は、待ちを回避するために、テナントごとにGPUノードを物理的に分割して提供する構成である。この分割構成では、リソースが占有できるというメリットがあるがコストは増加する。

今後細分化された特化型LLMを連携して利用することが予想されており、そのようなケースでは仮想マシンを利用し、開発時のインフラ利用率を向上することが求められる。

上記のいずれの構成例においても、ストレージ・データ管理としては、SMBストレージ、NFSストレージおよびそのバックアップ、そしてGPUと直接つながる高速Scratch領域として並列ファイルシステムが要素となる。「当社の製品はNFSなどにも利用されていますが、特にScratch領域の並列ファイルシステムに関しては当社の製品を使って成功されているお客様がほとんどです」(塩入ヶ谷氏)。

最後にGPUの性能に関わるもう1つの要素、ネットワークとの関連を紹介し、塩入ヶ谷氏は講演を終えた。「当社のストレージは高速で高い信頼性を持つInfiniBandをサポートし、高い性能を出していますが、近年は柔軟で手軽なEthernetで組むことも増えています。InfiniBandからEthernetに変えた時、どの程度パフォーマンスが落ちるのか気になると思いますが、当社の製品に関しては、100GbEまたは200GbEのRoCEv2の環境であれば、ベンチマークではInfiniBandと遜色ない性能が得られています」。

生成AIを支えるインフラでは、ストレージ、高速ファイルシステム、ネットワークなどの構成要素を検討する必要があるが、その中でもストレージのWriteの性能が全体に大きな影響を与えることを考慮すべきである。リファレンスアーキテクチャの活用もあわせて、高価なGPUの価値の最大化と効率的な導入も可能となるのでぜひ検討してほしい。

関連リンク

お問い合わせ

株式会社データダイレクト・ネットワークス・ジャパン

https://ddn.co.jp/

  • 1
  • 2

▲PageTop

CONTENTS