データダイレクト・ネットワークス・ジャパン

ONLINE SEMINAR Review ITインフラSummit 2024 Summer 生成AI活用を支えるIT基盤を探る

AI・デジタルツイン・データ基盤Forum

AI活用を支えるインフラ
～データ管理は？運用は？

データダイレクト・ネットワークス・ジャパン
シニアシステムズエンジニア
塩入ヶ谷寛氏

人工知能（AI）活用を支えるインフラにおいて処理の要を担うGPUは重要である。では最新のGPUさえ導入すれば優れたパフォーマンスを得られるかというと、必ずしもそうではない。高性能かつ高価なGPUを最大限活用するために、必要なインフラについて考える。

生成AI学習に必須のチェックポイント

データダイレクト・ネットワークス・ジャパン
塩入ヶ谷寛氏

データダイレクト・ネットワークス（以下DDN）は、ハイパフォーマンスコンピューティング（HPC）やAIの分野に強いストレージベンダーである。20年以上HPC業界をけん引し続け、Top500やTop100にランクインするHPCシステムにおいて、DDNはその大多数にストレージソリューションを提供してきた。AIの分野でもNVIDIA社をはじめ、絶大な支持を集めている。

生成AIを活用するためには、5つのフェーズがある。学習フェーズとして、1.データ収集/前処理、2.モデルの学習評価、3.ファインチューニング。推論フェーズとして、4.デベロップメント/テスト、5.プロダクション/保守だ。本講演では、学習フェーズを中心に必要となるストレージの要件について紹介する。DDNジャパンの塩入ヶ谷寛氏は、「ストレージはデータ保護や冗長性、重複排除、暗号化などで語られがちですが、本日は主にパフォーマンスの面から紹介します」と語る。

ストレージのパフォーマンスには、ご存知の通りRead（読み込み）とWrite（書き込み）があるが、生成AI環境では一度読み込んでしまえば後はそのデータを繰り返し使うので、Readの性能は重要だが、Writeの性能はそこまで大きな問題にはならないというのが一般的な考え方であった。

2022年に構築されたスーパーコンピューター「NVIDIA Selene」において、128台のNVIDIA DGX A100（1024台のNVIDIA A100）を使った生成AIや機械学習環境におけるストレージの初期Readのピーク値を計測したところ、GPT13-13B（130億パラメーター）を処理する場合、約250GB/sの性能が必要であった。「このように大規模な生成AIにはReadが重要とよく言われ、Readさえ出ればWriteの性能はそれほど必要ないという見方がありましたが、最近は日本国内でもWriteの重要性が認識されるようになってきました」（塩入ヶ谷氏）。

学習において定期的な取得が望ましいチェックポイントでは大量のWriteが発生する。学習中になぜチェックポイントを定期的に取得するのか？学習中に問題が発生した場合は処理をやり直す必要があるが、チェックポイントを取得しておけばその時点からの再開で済む。つまりチェックポイントからリスタートすることで被害を減らすことができるのだ。

このチェックポイントの必要性は、Metaの論文からも読み取れる。NVIDIA A100-80GB×992台でGPT3-175Bを学習した際、2カ月間でハードウェア障害による35回の手動再起動と70回以上の自動再起動が必要だった。「これだけ再起動をするとなると、なるべくこまめにチェックポイントを作成する必要があります。このケースでは1回のチェックポイントで2TB程度のWriteが必要なので、2TBの書き込みにどのくらい時間がかかるかが重要となってきます」（塩入ヶ谷氏）。

GPUの稼働率向上にはWriteが高速なストレージが重要

GPUの利用率とチェックポイントの関係を、DDNの日本のベンチマークチームが検証した結果を下記のグラフに示す。中央のグラフがGPUの利用率を示しているが、学習時には100%となっている。しかしチェックポイントを取得中には0%に下がり、そのタイミングで一番下のI/Oのグラフが上がっている。塩入ヶ谷氏は、「チェックポイントの取得中は全くGPUは使われていません。これが全体の効率に大きく影響します」と指摘する。

中央がGPUの利用率で、100%と0%を繰り返している。一番下がI/Oの利用率を示しており、GPUが0%の時I/Oが上がりチェックポイントを取得している。つまり、チェックポイントを取得している間は高価なGPUが全く利用されていないことがわかる

DDNのストレージを利用している国立研究開発法人産業技術総合研究所（産総研）が2018年から運用するABCI（AI橋渡しクラウド）には、チェックポイントを2時間おきに取得している生成AIの開発者がいる。そのジョブのチェックポイントは、容量約2TBと大量であるが、Writeスピードは平均70GB/sで30秒ほどで終了する。「仮にストレージの性能が10分の1なら、チェックポイント作成、すなわちGPUが稼働していない時間が2時間おきに5分やってくることになります。GPUのリソースは非常に高額なので、ストレージの性能によってGPUが使えない時間が長引くことは、投資効果に疑問がつくでしょう。当社のストレージをご利用いただくことによって、このような問題は回避できます」（塩入ヶ谷氏）。

ちなみに、ABCIで実行されたジョブと同様のものをクラウド上で実行してみると、ジョブに時間がかかっていた。この原因を突き詰めるとチェックポイント取得に多大な時間を要していたことが原因で、GPUが効率的に利用できていないことが判明した。

GPUの稼働率向上にはReadだけでなくWriteも高速なストレージが重要であることは、海外では以前から認識されていたが、国内でも大規模なモデルが導入されるようになりようやく認識されるようになってきた。生成AIにおいてコスト効果を高めるためには、GPUの稼働率が極めて重要であり、その稼働率にストレージの性能、ReadだけではなくWriteが大きく作用する。

▲PageTop

CONTENTS