クラウド基盤最適化Forum
NTTデータ
テクノロジーコンサルティング&ソリューション分野
テクノロジーコンサルティング事業本部
テクノロジーコンサルティング事業部
部長
大久保 康基 氏
NTTデータ
テクノロジーコンサルティング&ソリューション分野
ソリューション事業本部
セキュリティ&ネットワーク事業部
テクニカル・グレード
田中 智志 氏
生成AIを活用するためには、これまでの業務システムとは異なるITシステム基盤が必要になる。AIモデルの学習や運用に必要な新たな計算リソースとして、GPUサーバーをシステムに組み込む必要がある。しかし、GPUサーバーは高額で、電力供給や冷却能力などの要件も厳しい。こうした事情を踏まえ、生成AIシステムに特化したインフラ基盤の選定基準と、ネットワークの選定基準について解説する。
NTTデータ
大久保 康基 氏
「生成AIシステムに求められるIT基盤とネットワークは、これまでの一般的な業務システムとは異なります。AIシステムの選定基準を知らなければ、適切な生成AIシステムを構築することはできません」。NTTデータの大久保康基氏は、こう指摘する。
IT基盤の選択肢は大きく3つある。パブリッククラウド、プライベートクラウド、オンプレミスである。選定時に考慮する主な要素は、コスト、アジリティ(拡張性や導入に要するリードタイム)、セキュリティである。これらのスペックを、システムの要件や扱うデータの特性に応じて選んできた。
「生成AIシステムでは、選定時に考慮する新たな要素として、GPUが入ってきます」と大久保氏は指摘する。「GPUは高額であり、AIシステムのコストの多くを占めます。無視はできません。利用頻度などを考慮してインフラを選ぶ必要があります」(大久保氏)。
生成AIシステムにGPUは必須であり、避けては通れない。AIモデルを作る際には、用意した学習データを使って訓練し、AIモデルを作る。作成したAIモデル使うときには、推論アプリケーションにAIモデルを組み込んで使う。こうした全体の流れの中で、GPUが使われる。
GPUを最も必要とする処理は、AIモデル作成時のプレトレーニング(ニューラルネットの訓練)である。次に、既存のAIモデルをもとに追加学習するファインチューニング(訓練済みニューラルネットの微調整)でも利用する。インファランス(訓練済みニューラルネットの活用、推論)にも使うが、学習ほどには計算リソースを必要としない。
AI基盤を選定するうえでの観点は、これまでのIT基盤と変わらず、コスト、アジリティ、セキュリティが重要になる。ただし、GPUという観点で追加の要素が出てくる。例えば、AIモデルの学習に長時間学習させるのであれば本当にアジリティが重要かを考える必要がある。コストについては、GPUが高額なためコスト全体に占める割合が高い。セキュリティについても、学習に使う機密情報の取り扱いに注意が必要になる。
一般的な選択肢であるパブリッククラウドをAI基盤に選んだ場合、必要な時にオンデマンドでリソースを調達できるメリットがあるが、料金が高額というデメリットがある。最新のGPUを使えるが、需要が大きいと必要な時にリソースを確保できないリスクがある。開発ツールが揃っているが、アップデートで更新されてしまうリスクがある。
大久保氏は、パブリッククラウドのメリットとリスクを考慮したうえで、オンプレミスなど他の選択肢も含めた、AI基盤の選定観点を4つ指摘した。
1つめの観点は、データの機密性である。「データに対して、どの程度のセキュリティが必要なのか。漏えいを許容できるか」という観点である。AIは重要機密を扱うケースが多い。パブリッククラウドの場合、設定の人的ミスによるデータの漏えいがあり得ることを考慮する必要がある。
2つめの観点は、学習頻度である。「AIモデルの最新化など、AIモデルの学習を、どのくらいの頻度で実施する必要があるのか」という観点である。一般に、AIモデルを開発する場合、1回作って終わりではなく、定期的に再学習させる。学習頻度が高ければ、GPUを自社で保有したほうがコストは安い。1回学習させたらしばらく学習させないのであれば、オンデマンドで調達できるパブリッククラウドが適する。
3つめの観点は、学習環境である。「開発ツールとして、どのようなツールが必要で、そのツールは自前で整備可能かどうか」という観点である。パブリッククラウドでしか使えないツールを使いたい場合は、パブリッククラウドを使うしかない。
4つめの観点は、GPUリソースの調達である。「そもそも買いたいと思った時に、GPUサーバーを調達可能かどうか」「GPUサーバーを設置できるファシリティを確保できているか」という観点である。特に、「GPUサーバーのファシリティへの要求は厳しいです」と大久保氏は指摘する。
GPUサーバーの電力消費量は大きく、GPUを8基搭載したサーバー1台で10kW以上に達する。従来は1ラックで4kW程度だったが、サーバー1台で超えてしまっている。また、こうしたGPUサーバーの発熱量は大きく、冷却性能も要求する。
NTTデータは、GPUサーバーに耐えられるファシリティとして、データセンター(所在地:東京都三鷹市)のサービスを提供しているほか、クラウドサービス「OpenCanvas」を提供している。
「OpenCanvas」では、プライベート環境でのAI用途の環境提供も実施していく。