クラウド基盤最適化Forum
NTTデータ
テクノロジーコンサルティング&ソリューション分野
テクノロジーコンサルティング事業本部
テクノロジーコンサルティング事業部
部長
大久保 康基 氏
NTTデータ
テクノロジーコンサルティング&ソリューション分野
ソリューション事業本部
セキュリティ&ネットワーク事業部
テクニカル・グレード
田中 智志 氏
GPUサーバーを運用するうえでは、ネットワークも重要である。例えば、パブリッククラウドにWAN経由でアクセスする場合、遅延が大きくなる課題がある。機密データをクラウドに転送することによるセキュリティの不安もある。
一方、プライベートクラウド/オンプレミスの場合、データをGPUサーバーの近くに配置できるメリットなどがあるが、生成AIのトラフィックの特性に合わせたネットワーク設計スキルが必要になる。パブリッククラウドと比較して拡張性や費用面での課題もある。
NTTデータの田中智志氏は、生成AIの基盤としてパブリッククラウドを利用する際の、ネットワークにおける考慮事項をいくつか示した。帯域、遅延、可用性、輻輳制御、ネットワークの複雑さへの対応、などについて、それぞれ指摘した。
NTTデータ
田中 智志 氏
帯域については、エンドツーエンドの経路上にあるコンポーネントをしっかり見ていくことが必要である。「オンプレミスのルーターやWAN回線は簡単に確認できます。一方、クラウド上のサーバーインスタンスやゲートウエイは、キャパシティの上限が決まっているので、これを確認しておく必要があります」(田中氏)。
遅延については、WAN回線として閉域網を利用することを第1に検討することが大切。「AIシステムのために専用に利用できる広帯域・低遅延の回線を使うことが必要です」(田中氏)。
可用性については、回線の冗長化、クラウドサービスのアベイラビリティゾーンの冗長化、クラウドに接続するサービスのロケーションの分散、などが有効である。これら分散環境の活用にはBGPルーティングの知識が必要になる。
輻輳制御については、「パブリッククラウドでQoS(Quality of Service)をきめ細かく設定できるサービスはありません」(田中氏)。これに対しては、サードパーティの仮想ルーターインスタンスをクラウドの仮想環境にデプロイするといった解決策がある。
ネットワークの複雑さへの対応については、「場当たり的にマルチクラウド構成をとってしまうと、ネットワーク構成自体がサイロ化してしまいます。明確な戦略を持つべきです」(田中氏)という。
セキュリティも重要なポイントになる。クラウド設定の誤りを検知する仕組みを導入したり、クラウドエンジニアを育成したりといった対策が必要だ。機密情報の流出については、閉域網の利用や、トラフィックの暗号化が有効である。サイバー攻撃に対しては、サードパーティのIDS/IPS仮想アプライアンスの配備などを検討する。
GPUサーバーをオンプレミスに設置する場合は、高性能GPUサーバーを並列に増設可能かどうかを考慮する。生成AIのトラフィック特性は、GPUサーバーの入出力においてバースト的な大量データのトラフィックが発生すること。ここで求められる要件は、広帯域、低遅延、ロスレスである。
オンプレミスでのGPUサーバーのためのネットワーク構成としては、大規模なパブリッククラウド事業者も採用しているIP CLOS構成が適している。スイッチを増設するスケールアウトによってEast-Westのトラフィックを拡張できるからである。スパインとリーフのスイッチをメッシュ型で接続し、レイヤー3でルーティングする。ルーティングプロトコルにはBGPを使う。
遅延は、RDMA(Remote Direct Memory Access)をイーサネットで実現する規格であるRoCE(RDMA over Converged Ethernet)によって減らせる。RDMAは、InfiniBandの核となる技術であり、OSやNICへのデータコピーをバイパスし、アプリケーションから宛先サーバーのメモリーに直接データを書き込むことでコンピュータ間の通信遅延時間を短縮する。RoCEv2はRoCEをUDPに拡張したものである。
ロスレスを実現するためには、RDMAの特性に合わせ、ECN(Explicit Congestion Notification)やPFC(Priority-based Flow Control)のように、宛先サーバーが経路上の輻輳や自分自身のバッファの輻輳を検知して送信元に信号を送って輻輳を回避する技術を使う。RDMAの場合、ドロップしたパケットだけでなくドロップ以降のシーケンスをすべて再送してしまうからである。
なお、オンプレミス/プライベートクラウドのセキュリティについては、閉域網が第1の選択肢となる。「閉域網によって、低遅延とセキュリティを担保できます」(田中氏)。また、境界にはファイアウォールやIDS/IPSを置き、トラフィックを暗号化する。RoCEv2はIPネットワークを超えられるので、VXLANのオーバーレイにより、生成AIを複数企業で利用する場合も企業ごとにネットワークを分割でき、セキュリティを担保できる。
NTTデータは、閉域ネットワークサービスの「Connecure」を提供している。NTTデータが提供する各種サービスセンタへの閉域網接続が可能であり、接続先のサービスセンタは順次拡大中である。
AI基盤とネットワークの選定について大久保氏は、「GPUサーバーは高額で、ファシリティへの要求も高いです。これらを考慮し、用途に合ったインフラ基盤を選ぶ必要があります。ネットワークは広帯域、低遅延、セキュリティなどを重視し、WANは閉域網を第1に検討する必要があります」とまとめた。
関連リンク