推論からその先のフィジカルへ AI進化で増大する処理能力への要求に応えるキオクシアの挑戦

多くの業務現場で当たり前のように使われるようになった生成AI。最近では対話型の生成AIだけではなく、業務そのものを担うAIエージェントが登場し、その導入を検討する企業も増えてきた。生成AIの活用が拡大すれば、当然ながら処理に費やされる計算リソースも増大し、そのニーズに対応するためGPUの性能も向上している。しかし求められるのはGPU性能だけではない。GPUにデータを渡すメモリやストレージも、性能向上や容量拡大が必要なのだ。このような要求に対して、現在どのような取り組みが進んでいるのか。世界最大級のフラッシュメモリ・SSDの専業メーカーである、キオクシアのキーパーソンに話を聞いた。

「推論」の急増で直面するメモリの限界

私たちの生活やビジネスの中に、広く浸透し始めた生成AI。最近ではその使われ方が、大きく変わろうとしている。これまでは“質問して回答を得る”といった使われ方が一般的だったが、“AIに仕事をさせる”というAIエージェントへの進化が、急速に進みつつあるのだ。

「今年はまさにAIエージェント元年だといえます」と語るのはキオクシアの濱田誠氏。今後はこの流れがさらに進み、AIエージェントが他のAIエージェントを使って仕事を完結させるエージェンティックAIへと進化していくはずだという。

キオクシア株式会社
SSD事業部
SSD応用技術統括部
技術統括部長
濱田誠氏

「このような使われ方が広がれば、人の手入力にかかる時間が不要になるため、これまでよりはるかに速くAIが問題を解決するようになるでしょう」と濱田氏は言う。

この流れが進んでいけば、生成AIが動くシステムへの要求も大きく変化していく。これまでは生成AIモデルを作成する“学習”に膨大なリソースが投入されてきたが、今後は生成AIの利用現場で“推論”を行うためのリソースがより重要になっていくのだ。

「エージェンティックAIの利用が始まれば、人の手入力という待ち時間がない状態でAI同士が会話するようになり、AIが自律的に動かすシステムの数が増大します。それによって生み出されるデータ量も指数関数的に増加し、処理するデータ量も増えるため、GPUにはさらなる高性能化が求められるようになるでしょう」（濱田氏）

エージェンティックAIの先には、フィジカルAIへの移行へとAIの適用領域がさらに拡大していく。フィジカルAIの時代が到来すれば、処理速度に対する要求はさらに厳しいものになる。AIが物理空間で作業を行うには、3次元空間や時間軸のデータを取り込み、その内容を盛り込んだ推論結果を作業内容にフィードバックする、といったことをリアルタイムで行う必要があるからだ。

このような変化を見据えて、既にGPUは急速に処理能力を高めている。その一方で近年大きな課題となっているのが、データをGPUに提供するメモリの限界だと濱田氏は指摘する。

「GPUにデータを提供するため、現在GPUの横には『HBM（High Bandwidth Memory）』というDRAM（メインメモリ）が搭載されています。3次元積層構造を持つ半導体メモリなのですが、最近ではこのHBMの限界が見え始めているのです」（濱田氏）

解決策はGPUからSSDへの直接アクセス

HBMの限界とは何か。それは容量の増設が難しいということだ。積層数の増加が困難なことに加え、微細化のためのコスト増が大きく、どうしても高価になりやすい。つまり純粋な技術面でも大容量化には限界があり、もしそれを突破できたとしてもAIの社会実装期に向けては経済的に実装が困難なのだ。

「HBMが容量的な限界を迎えれば、単純にGPUの性能を高めていくという“力技”が通用しなくなります」と濱田氏。ではこの問題を解決するにはどうすればいいのか。その答えは、DRAMだけに頼らずSSDを活用するというアプローチだ。

「GPUベンダーのNVIDIAは、AI主導のワークロード向けにSSDの役割を再定義しています。そこで目指しているのは、GPUから直接SSDにアクセスすることで、HBMの容量が実質的に増えたようにすることです。つまりSSDを単なるデータの保存領域ではなく、GPUメモリとして扱うわけです」と濱田氏は説明する。

そのためにはSSDに大きなブレイクスルーが求められる。データアクセス時の遅延を大幅に短縮するとともに、入出力処理のためのI/O性能も劇的に高めなければならない。この要求に対応するため、現在キオクシアが開発しているのが「KIOXIA GPシリーズ」と呼ばれるSSD製品である（写真）。

写真　「KIOXIA GPシリーズ」のモックアップ

同シリーズの評価用サンプルは、2026年末までに限定顧客向けに提供を開始する予定だという（製品の画像は実際の製品と異なる場合がある）

[画像のクリックで拡大表示]

「当社には既に3D NAND技術をベースとしたXL-FLASHという高速なストレージクラスメモリがあります。KIOXIA GPシリーズはこれを採用し、ランダムリードの性能を劇的に高めることにフォーカスしています。また、I/O当たりの消費電力も従来のSSDに比べて低減できます」と濱田氏は語る。

ではなぜ、KIOXIA GPシリーズはランダムリードの性能にフォーカスしているのか。それは想定しているユースケースに理由がある。

「KIOXIA GPシリーズが特に意識しているのは、ベクターDB（データベース）サーチでの活用です。企業独自の情報やリアルタイム性の高い情報を使った推論を行うには、学習後の生成AIに外部から情報を与えるRAG（Retrieval-Augmented Generation：検索拡張生成）という手法を使いますが、その際に使われるのがベクターDBです。そのサーチを行う際には、まとまったデータを一気に読み出すのではなく、細かく分散したデータを読み出す必要があります。そのためランダムリードの性能が重要になるのです」（濱田氏）

4つの方向へと進むキオクシアの取り組み

もちろんSSDであれば、容量当たりの製造コストをDRAMよりも低く抑えることができ、大容量化も容易だ。GPUが直接アクセスできれば、HBMの限界を突破できる。より多くのデータをスピーディに扱えるようになることで、GPUを効率的に活用した精度の高い推論が可能になるのだ。またKIOXIA GPシリーズは単位電力当たりの性能が非常に高いため、データセンターの消費電力低減にも貢献できる。

キオクシアは、このKIOXIA GPシリーズ以外にも多角的なSSDソリューションを展開している（図）。

図　キオクシアが取り組むSSDの4つの方向性

今回発表された「KIOXIA GPシリーズ」だけでなく、「KIOXIA CMシリーズ」や「KIOXIA LCシリーズ」など、その多くがAIによる活用を意識している

[画像のクリックで拡大表示]

「方向性としては大きく4つあります」と濱田氏。第1は既に紹介した、超高性能なKIOXIA GPシリーズ。第2は高性能と大容量を高いレベルでバランスさせた「KIOXIA CMシリーズ」だ。

「これはRAGと並んでAI推論で重要になるKVキャッシュに対応したものです。KVキャッシュは一度出した推論結果を一時的に保管する場所で、同じ質問が来たときに再計算せず回答できるようにします。KVキャッシュからはある程度まとまった形でデータが読み出されるため、ランダムリードよりもシーケンシャルリードが重要になり、書き換え回数も多いため高い信頼性も求められます」（濱田氏）

第3は高密度・大容量にフォーカスした「KIOXIA LCシリーズ」。これはAIの学習や、推論結果のデータプールとして利用されることを想定しており、非常に大容量なQLC（1セル当たり4ビットのデータを記憶可能な高密度フラッシュメモリ）を搭載している。そして第4がHDDの置き換えによるTCO最適化を狙った「ニアラインSSD」だ。

これらに加え、SSDをより効果的に活用するためのソフトウエア開発にも取り組んでいる。その成果の1つが、生成AI向けベクターDB探索ソフトウエア「KIOXIA AiSAQ（キオクシアアイザック）」だ。KIOXIA AiSAQは、検索を高速化するためのデータとインデックスを含めてベクターDBをSSDに展開し、これまでのメモリに展開する方法と遜色ない速度で検索を可能にする。既にオープンソースとして提供しており、オープンソースのベクターDB「Milvus」が正式採用。今後のデータ量増大に対する重要な解決策になるはずだ。

AIの進化に応えるストレージイノベーションを

「このようにAI活用の拡大に向けて複数の取り組みを行っていますが、これらの開発は決して簡単ではありません」と濱田氏。生成AIの世界は目まぐるしく変化し続けており、解決すべき課題も次々と新しく出てくるため、仕様を固めきることが難しいのだという。「そのため、NVIDIAやユーザーの方々と対話を重ねながら開発を続けています。今後もAIをよりよいものにするため、ストレージイノベーションの最先端を走り続けたいと考えています」と今後の展望を語った。