AI環境構築事例 日鉄ソリューションズ株式会社 システム研究開発センター学習データの大容量化との戦いに打ち克つ方法とは?

大手SIerの日鉄ソリューションズ(NSSOL)。同社では、3年先のビジネスを見据え、先端技術を研究するチームがある。それが「システム研究開発センター(シス研)」だ。ここでは、様々な技術の研究が行われているが、その注力分野の1つが、ディープラーニング(深層学習)を中心とするAIの応用研究である。目指しているのは「人と共に進化するAI」だ。ただ、AI開発は、データの大容量化やそれに伴う性能不足との戦いでもある。いかに、学習モデルの作成時間を高速化し、同じ時間でより多くの試行錯誤に挑める環境を整備するか――。これが業務を推進する上で重要なポイントとなっているのだ。それでは、次世代AIの開発に向けシス研では、どのような基盤を構築しているのか。その取り組みや仕組み、中身を紹介していきたい。

NSSOLの競争力の源泉となるシス研の
「技術力」と「実践力」

新日本製鐵(現:日本製鉄)の情報システム部門を母体とする日鉄ソリューションズ(以下、NSSOL)。同社は、ミッションクリティカルな製鉄業界のシステム構築・運用で培った高度な技術力を生かし、製造業をはじめ金融や流通、公共など幅広い分野のIT活用とビジネス変革を支援している。近年はAIの研究開発やビジネス実装、自営無線ネットワーク「ローカル5G」の構築・運用サービス、Humans(ヒト)とThings(モノ)とが高度に連携・協調することで成果を生み出す「IoXソリューション」の開発・提供などに注力している。

こうしたイノベーティブな取り組みを支えているのが、システム研究開発センター(以下、シス研)である。シス研は、3年先のビジネス化を見据えて先端技術を研究し、独自の付加価値を加えることで世の中に貢献することを目的とした組織だ。

日鉄ソリューションズ株式会社
技術本部 システム研究開発センター
インテリジェンス研究部 主務研究員
山岡 信介 氏

「研究員は調査・研究活動にとどまらず、お客様への提案や開発プロジェクトなど実ビジネスの場にも参画します。その知見・経験を研究活動にフィードバックしています」。こう話すのは、シス研でデータサイエンティストを務める山岡 信介氏だ。

常に時代の先を行く技術の研究開発を進めつつ、そのビジネス実装までコミットしていく。先端技術と現場をつなぐ地に足の着いた活動を行っているのが、NSSOLのシス研の特徴だといえるだろう。こうした技術力と実践力はNSSOLの競争力の源泉にもなっている。

人と協調し、ともに進化する
AI開発を推進

シス研が近年注力している分野の1つが、ディープラーニングを中心とするAIの応用研究である。この分野における研究の責任者を務める岩田 泰士氏は「目指しているのは『人と共に進化するAIシステムのフレームワーク開発』だ」と語る。

日鉄ソリューションズ株式会社
技術本部 システム研究開発センター
インテリジェンス研究部 主務研究員
岩田 泰士 氏

このフレームワークは「人の知識を理解するAI」と「推論過程を説明できるAI」で成り立つ。人はAIの推論過程や推論根拠から新たな知見や気付きを得ることができ、AIは人の知見により推論精度を高めていく。「人とAIが互いに知見を得て、共に成長できる仕組みを整え、AI適用分野を拡大していきたい」と岩田氏は話す。

この一環として、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が進める「人と共に進化する次世代人工知能に関する技術開発事業」の研究プロジェクトに参画。国立研究開発法人産業技術総合研究所(産総研)、長崎大学、山梨大学とともに、病理医の病理画像診断業務をサポートするAIの開発を進めている。

数百GBにもなる膨大な医療データ、経験豊富な医師の診療結果を学習させることで、AIの診断精度がより向上していく。最終的に診断を下すのは医師だが、AIが想定される病理を推論診断することで、多忙な医師の負担軽減につながる。「人とAIが協調することで、より速く的確な診断が可能になり、医療の質の向上も期待できます」と岩田氏は話す。

診療の効率化により、医師の人手不足を補うこともできる。推論過程を説明できるAIを通じて、現場の医師が専門医の知見や経験を学べるのも大きなメリットだ。

このほか、シス研では自然言語処理AIの研究開発も行っており、「人の業務を支援するAI」として「Lumisis(ルミシス)」というプロジェクトのタスク管理票や報告書といったドキュメントの自動レビューを行うシステムについても社内PoCを実施している。

通常の上司部下間のドキュメントレビューでは、記載の不備に対する上司から部下への情報確認といった追加業務の発生による負担増加や、不備への指摘を嫌がる部下の報告頻度低下などのコミュニケーション不全や働きがいの低下といった課題が発生しうる。

Lumisisを導入したチームの場合、部下がドキュメントを登録すると、AIによるレビューが自動実行され、不備があればその内容とともに指摘が返り、十分に書かれていればAIに褒めてもらえる。その不備指摘を参考にドキュメントを修正することにより、手戻りが減少し、プロジェクトの生産性向上につながる。また、PoCにおいては、別の効果としてAIがメンバー同士のコミュニケーションの緩衝材となる効果も見られた。AIによるレビューの場合、自身のミスを指摘されることへの心理的負荷感が下がることに加え、レビューを繰り返すことで部下が上司からネガティブな指摘を受ける回数が減った結果、上司への報連相の抵抗感が薄れ、コミュニケーションを円滑に進められるようになったという声が、プロジェクトメンバーからあげられたという。

「リーダー、メンバー双方の負担を減らし、チーム内のコミュニケーションを進化させることで、単純な効率化に留まらない、業務全体の生産性向上を目指しています」と山岡氏は説明する。本PoCでは、問題発生から解決までの日数を18日から10日に短縮できたケースもあった。

分析速度の限界突破を目指し、
PowerEdge XE8545サーバーを採用

こうした大量のデータ学習を必要とするAIの研究開発には、強力なコンピューティングパワーが求められる。特にGPUアクセラレーターを搭載した高性能サーバーは不可欠のインフラである。しかし、数年前に導入した機種では性能が不足し、学習モデルの分析に時間がかかるようになっていたという。「近年は実用化に向けた業務向けの研究が増え、分析するデータ量も増大する傾向にあります。既存のGPUサーバーでは分析スピードに限界が見えてきたため、最新のGPUアクセラレーターを搭載した高性能マシンを求めていました」(山岡氏)。

そこで新たに採用したのが、デル・テクノロジーズの「Dell EMC PowerEdge XE8545」(以下、PowerEdge XE8545)である。GPUアクセラレーターとして従来(NVIDIA V100)比20倍のAI 性能を実現したNVIDIA A100を4基と、最大64コアの第3世代AMD EPYCプロセッサーを2基(128コア)搭載する。CPUとGPU間の接続をスイッチレスで切り替え遅延を抑えるNVIDIA NVLinkも採用している。

GPUのメモリは40GBと80GBの2モデルを選択可能だ。40GBメモリ搭載のモデルは、NVIDIA V100を搭載した前世代のPowerEdge C4140の2倍以上の処理性能を発揮する。80GBメモリ搭載モデルなら、さらに高速に画像分析モデルの学習を行うことができる。

PowerEdge XE8545を採用した理由について山岡氏は次のように語る。「当初は他社のサーバーアプライアンス製品なども比較検討しましたが、PowerEdge XE8545はGPUメモリの80GB搭載モデルが用意されており、NVIDIA NVLinkにも対応しています。しかも、CPUコア数の選択やサポートレベルの変更により、予算に見合った形で導入することができる。こちらが求める性能要件を十分に満たしていることに加え、デル・テクノロジーズの柔軟な対応力が決め手になりました」。

これまでのサーバーの導入実績や稼働実績も高く評価したという。特に管理性に関しては、サーバーをリモート管理できる「iDRAC(integrated Dell Remote Access Controller:アイドラック)」の評価も高かったという。これは、サーバーを遠隔から管理する仕組みで、190種類以上のメトリックデータをJSONフォーマットで時系列に収集することが可能だ。「この機能を活用することで利用状況の確認や予防保全ができます。特にAIは膨大な計算を連続して行うため、サーバー内に熱だまりが発生しやすい。そうした場合でも、iDRACがあればシステムがダウンする前に未全に対応したりアラートをあげたりすることができます」(山岡氏)。

CPU・GPUパワーをフル活用し
システムの利用効率も向上

NSSOLは80GBのGPUメモリ4枚(合計320GB)を搭載したPowerEdge XE8545をシス研に導入。SSDのストレージ(2TB×4)を接続するとともに、AI開発プラットフォーム「KAMONOHASHI(カモノハシ)」に組み込み、利用を開始した。KAMONOHASHIはディープラーニングのモデル開発を効率的に行うために独自に開発した基盤である。

PowerEdge XE8545の採用により、同社は様々なメリットを実感している。同社はAI関連のアプリケーションの開発・実行環境としてLinuxディストリビューションの1つである「Ubuntu(ウブントゥ)」を利用しているが、PowerEdgeサーバーは全モデルでUbuntu認証を取得しているため、安心してUbuntuを利用できる。また、各AI関連ツールの環境に最適なOSやライブラリの版数でシステムを動かすことが求められることから、コンテナ基盤Dockerを活用して、利用効率の向上を図っているという。

第3世代AMD EPYCプロセッサーのCPUコアが多い特長もフルに活用している。コンテナ基盤の上で、「よりパワーが必要な画像処理はNVIDIA A100で処理し、データ解析はAMD EPYCの多数のCPUコアで平行して実施するというような柔軟な使い分けができ、効率的なリソース活用が可能になりました」と山岡氏は話す。

モデルの学習時間が40%高速化され、
試行錯誤が容易に

作業の生産性も大幅に向上した。例えば、NEDOなどと進める病理診断AIの開発では、1枚が16億ピクセルにもなる病理診断画像を大量に分析し、そこから医学的な意味を見出すセグメンテーションのモデルを作成していく。「従来環境では1エポック※当たり約60分要していた学習時間を38分程度に短縮し、特段のチューニングを加えなくても約40%の高速化を実現しました」と山岡氏はメリットを述べる。

NVIDIA V100 GPUを複数枚用いて分散学習のような工夫を盛り込まないと実施できなかった処理も単一NVIDIA A100 GPUで対応でき、従来比4倍の高解像度画像を用いた学習なども実行可能になったという。「NVIDIA V100で1週間かかっていた学習時間がNVIDIA A100なら3日でできる。それぐらい大きなスピードの違いを実感しています」と山岡氏は続ける。

例えば、どのようにモデルを組み合わせるか、データの入れ方を変えるとモデルの精度がどう変わるかなどモデル作成作業においては1カ月で数十回、数百回とチャレンジすることもざらにあるという。「その中で成功ケースが1つあればいい。モデルの作成・精度向上の取り組みはそれほど地道な作業なのです。学習時間が大幅に短縮できたことで、モデルの精度を上げるための試行錯誤の回数も増やすことができる。結果としてAIの開発期間が短縮され、医療サービスの高度化への貢献につながります」と山岡氏は語る。

今後は病理画像や自然言語処理のモデル学習にとどまらず、様々な用途でのAI活用に向けた研究開発を進める。「3年先を見据えて研究していくためには、常に道具を進化させていかなければならない。デル・テクノロジーズには時代をリードするハイスペックマシンの提供とニーズに応える適切な提案を期待しています」と岩田氏は話す。

今後もあらゆる業界においてAI活用のニーズはますます大きくなることが予想される。NSSOLは、先端技術の現場適用につながる研究開発、およびそれらを実現するためのハイスペックなAI開発向けサーバーをはじめとした設備投資を着実に行い、「ファーストDXパートナー」としてデータ利活用によるDX推進を積極的に支援していく考えだ。

※エポック(epoch):データセット内にある学習データを一巡すると1エポック。ディープラーニングでは一般的に数十エポックを学習させる。

NSSOL、IoX、KAMONOHASHI, LumisisおよびNS(ロゴ)は、日鉄ソリューションズ株式会社の登録商標です。

関連リンク

お問い合わせ

デル・テクノロジーズ株式会社

https://www.delltechnologies.com/ja-jp/solutions/artificial-intelligence/index.htm