ディープラーニングへのチャレンジを加速する GPGPUをベースとした Dell EMCのHPCソリューション

人間の脳回路をモデルにしたディープラーニングへの関心が高まる

昨今、AI(人工知能)に関する話題は事欠かないが、なかでも特に注目されているのがディープラーニングと呼ばれる手法だ。人間の脳回路をモデルにした人工ニューロンを多層化し、入力データに基づいて各ニューロンの“重み付け”変化させながら学習させ、分析を繰り返す毎に学習を重ねて“賢く”なっていくのが特徴だ。主に画像/映像分析、自然言語処理などの分野に適用され、すでに多くの成果を上げている。

ただ、効果的な学習を行うためには膨大なデータに対してディープラーニングを適用する必要があり、相当なコンピューティングのパワーが要求される。チャレンジしてみたいと思っても、容易には踏み出せないハードルがそこにあった。

実際、少し前までディープラーニングの研究開発は、スーパーコンピューターのような専用機並みの性能がないと有効に使えなかったのである。

Dell EMC
インフラストラクチャ・ソリューションズ事業統括 ソリューション本部 HPCビジネス開発マネージャ
山崎拓也氏

一般的な企業が既存のインフラに同様の設備を増強するとなれば、当然のことながら巨額の投資が要求されることになる。また、仮に導入できたとしても、ベンダー固有の特殊なプログラミングスキルや運用技術を修得しなければならないなど、常にロックインのリスクがともなう。今後も急速なペースで進んでいくと予想されるAIの技術革新に対して、かえって身動きがとれなくなってしまう恐れがあるのだ。

そうした中、ディープラーニングへのトライアルを大幅に容易にする画期的なソリューションを打ち出したのがDell EMCだ。同社 インフラストラクチャ・ソリューションズ事業統括 ソリューション本部 HPCビジネス開発マネージャの山崎拓也氏は、このように話す。

「ディープラーニングを実行する前後のデータの加工に使用するワークステーションから、サーバーやストレージなどの基盤ハードウェア、また、言語&ライブラリ、開発フレームワーク(ミドルウェア)にいたるまで、あらゆる要素がオープンな標準技術で構成されたエコシステム上で、ディープラーニングを実行可能なエンドツーエンドのソリューションを提供していくというのがDell EMCのアプローチです」

学習モデルを生成するまでの リードタイムをいかに短縮するか

具体的にはDell EMCは、x86サーバーに搭載されたNVIDIAのグラフィック・アクセラレーターを汎用的な並列演算に活用することでAI用HPC(High Performance Computing)環境を構築。いわゆるGPGPU(General Purpose Graphics Processing Unit)の仕組みによって、ディープラーニングを高速実行するという方法をとっている。

ディープラーニングの実行プロセスは、蓄積データをもとに学習モデルを生成する「トレーニング」と、新しく入力された実際の業務データなどに学習済みのニューラルネットワークを適用して分類・分析を行う「スコアリング」の2つのフェーズに大きく分けられる。

このうち特に処理時間が問題となるのがトレーニングだ。データが大規模化するに従い学習モデルの生成時間が長期化し、数日から数週間を要する場合がある。ようするにディープラーニングに本格的に取り組みビジネスでタイムリーな成果を上げるためには、このトレーニングに要するリードタイムをいかに短縮できるかが重要な鍵を握っている。

「Dell EMCが提供するGPGPU基盤は、大規模なデータに対してディープラーニングを適用する場合にも、複数のコンピュートノードを連携させて対応することができます。ノード間をInfiniband で接続し、ノード間GPGPUの通信レイテンシをGPUDirectにて最小限に留め、高速な超並列演算を実現しています。また、InfiniBandを介してストレージを共有し、データトラフィックの遅延を少なくしています。更には、将来的なデータ量の増大に伴うシステム負荷の増加に対しても、スケールアウトによる柔軟な拡張性を確保しています」と山崎氏は語る。

なお、このGPGPU基盤(標準構成)の高速性能は、イメージ/秒および学習時間(トレーニングのほか I/O処理やオーバーヘッドなどを含む)を測定した数種のパフォーマンステストからも実証されている。Dell EMCがディープラーニングの各種フレームワークの性能のスケーラビリティーを検証した以下のレポートも参考にして欲しい。
『NVIDIA Tesla P100 GPU によるディープラーニングのパフォーマンス』

レポートはNVIDIA Tesla P100について、TensorFlow 0.11.0-rc2、MXNet 0.7.0、NVIDIAフォークのCaffe『NV-Caffe』(バージョン 0.15.13)の3つのフレームワークごとの、GoogleNetおよびInception-BN、Inception-V3ニューラルネットワークのトレーニングスピードとタイムの違いをベンチマークしたものだ。このレポートにより、(1)GPGPUがどの程度パフォーマンス向上に貢献するか。(2)大規模ディープラーニングのシステムに必須な複数のGPGPUを用いるシステムでどうパフォーマンスが変化するか。(3)ディープラーニングのフレームワークごとのスケーラビリティーの違いが把握できる。これからディープラーニングのフレームワークを活用して、ディープラーニングを始めたい方には一読の内容だ。

半精度に対応した最新GPUを 1筐体に最大4基実装することが可能

現在、Dell EMCのGPGPUソリューションに対応したサーバーとしては、PowerEdge R730、PowerEdge C4130、の2モデルがラインアップされている。

特にAI分野をターゲットとした用途で注目すべきはPowerEdge C4130だ。1Uラックマウントのコンパクトな筐体に、NVIDIAのグラフィック・アクセラレーターを最大4基まで搭載できるのである。

「より高密度なHPC環境で、ディープラーニングのトレーニングを超並列処理できるという観点からもPowerEdge C4130は非常に有利です」と山崎氏は語る。

さらにPowerEdge C4130は、NVIDIAの最新グラフィック・アクセラレーターであるTesla P100をサポートしているという点でも大きなアドバンテージを発揮する。

Tesla P100は新たに半精度浮動小数点演算(FP16)の機能を実装したのである。実はディープラーニングにおいては高精細な3Dグラフィックスやシミュレーションなどで要求される単精度浮動小数点演算(FP32)は必要なく、半精度で十分なのだ。「半精度であれば、GPU内の1つのレジスター(演算機)に2つの演算をペアで投入して一括計算することが可能。すなわちトレーニング処理の並列度を理論的には2倍に高めることができます」と山崎氏は強調する。実際、このメリットからTesla P100はディープラーニング/機械学習用GPUとも称されている。

加えて、GPU同士が互いのVRAMに直接アクセスできる「NVLink」を採用したことも大きな改良のポイントだ。これによりメインメモリやPCI Expressなどの低速なデータ転送のボトルネックを解消。4つのGPUをNVLinkで相互接続することで最大160GB/sの帯域幅を確保できるのである。

ディープラーニングを中心としたAIの応用分野は、これまでの主な対象だったメディア&インターネット(画像分類、音声認識、機械翻訳、自然言語処理、感情分析など)から、医薬&ヘルスケア(細胞検出、慢性疾患予測、新薬発見、遺伝子突然変異、老化予防、公衆衛生など)、自動運転車(画像認識、動作追跡、信号認識、緊急時の対応、ロボット工学など)、セキュリティ& 防衛(顔認識、ビデオ監視、衛星画像、イベント予測、意思決定支援など)へと多様な広がりを見せている。

あくまでもオープンで標準的な基盤技術にこだわりつつ、最先端のイノベーションを取り入れたDell EMCのGPGPUベースのHPCソリューションならでは、上記のような多様なテーマに柔軟にチャレンジすることが可能だ。

このようにDell EMCは、企業や大学のお客様が、手軽に始めることができるようなディープラーニング向けインフラを提供している。もし、ディープラーニングの導入を検討していて、そのインフラ選定に悩まれているのであれば、ぜひ一度、Dell EMC、または、その販売パートナーにコンタクトしてみるのはいかがだろうか。

LINK