~全てのスケールの物理現象の研究にフル活用!~ 世界最先端の研究を支える新スーパーコンピュータの実力とは?

湯川 秀樹博士のノーベル物理学賞受賞を記念して1953年に創設され、素粒子分野や原子核分野、宇宙分野、物性分野などの基礎物理学研究をリードし続けている京都大学 基礎物理学研究所。ここでは研究を支えるスーパーコンピュータが、5年ぶりに刷新された。5世代目となる新システムの名称は「Yukawa-21」。同研究所にとって、今回の刷新はこれまでと大きく異なる2つのポイントがあったという。そのポイントや新スーパーコンピュータの実力について、同研究所の研究者に話を聞いた。

共同研究や研究交流を支える、
国内初の全国共同利用研究所

湯川 秀樹博士のノーベル物理学賞受賞を記念し、素粒子論そのほかの基礎物理学に関する研究を目的として1953年に創設された、京都大学 基礎物理学研究所。1990年には広島大学 理論物理学研究所と合併し、新基礎物理学研究所として再発足した。

2008年には第7代所長の益川 敏英博士がノーベル物理学賞を受賞。カバーする研究分野は素粒子分野から原子核分野、宇宙分野、物性分野まで幅広く、最近では量子情報(量子コンピューティング)も加えた5分野での研究において、世界をリードする存在になっている。

京都大学 基礎物理学研究所
准教授
板垣 直之氏

同研究所における研究は、「この世界の最も基本的な構成要素は何か」「宇宙はいかにして始まったのか」「生命はどのように生まれたのか」といった、人類にとって根源的な問いに対して、その答えを探究するもの。つまり人類の自然認識を前進させる上で、重要な役割を果たし続けてきた存在なのである。

その成果に比べ、国内初の「全国共同利用研究所」であることは、意外と知られていない。同研究所は、創設された段階から「全国の理論研究者達の参画と協同のもと、全国的・国際的な共同研究や研究交流の一大拠点になる」ことが目指されていたのである。

「最近では国内だけではなく、世界中から数十人規模の研究者を招き、6週間程度の滞在型プログラムも実施しています。昨年は新型コロナウイルス感染症拡大の影響で開催できず、オンラインで参加できる形で海外の先生方に講演していただくという取り組みを行うことになりましたが、例年であれば世界トップクラスの研究者が集まり、この場を自由に使って研究や発表が行われているのです」と話すのは同研究所の板垣 直之氏だ。

京都大学 基礎物理学研究所
特定准教授
西道 啓博氏

こうした基礎物理学の研究で重要な役割を果たしているのが、同研究所のスーパーコンピュータ(以下、スパコン)だ。もちろんこれも、全国の理論物理学研究者が自由に使えるようになっている。この重要性について、観測的宇宙論を専門に研究する西道 啓博氏は、次のように説明する。

「例えば私の研究である観測的宇宙論では、観測データに基づいて宇宙の姿を解明する理論を構築しており、ダークマターやダークエネルギーなど、現在の標準理論では説明できないものの正体を突き止めようとしています。既に日本でもハワイのマウナ・ケア頂上にある『すばる望遠鏡』によって、文字通り天文学的な数の天体を調べ尽くす取り組みが進んでいますが、現在そのデータに基づいて、数百万から一千万規模の天体の宇宙地図を作成しているところです。これは、ダークマターの重力で空間が曲げられ、その空間を通る光の進路が変化する『重力レンズ』という現象を見出すための取り組み。この研究を進めるためには1兆レベルの物体の相互作用を追いかけなければなりません。そのシミュレーションを実際に行うには、スパコンの存在が欠かせないのです」

また、原子核物理を専門に研究する板垣 直之氏も、次のように続ける。「私の原子核物理の分野でも、原子核の密度分布のシミュレーション分析などにスパコンをフルに活用しています」

圧倒的な価格性能比を
可能にした2つのアプローチ

2021年1月にはその刷新が行われ、本格運用が始まった。新しいシステムの名前は「Yukawa-21」だ。

この中に、インテル社のインテル® Xeon® スケーラブル・プロセッサー を4個搭載した「Dell EMC PowerEdge R840」サーバー×135台と、AI用途の4ソケットプロセッサー搭載の「Dell EMC PowerEdge R940xa」サーバー×2台が格納されている。

同研究所ではスパコンを5年ごとに更新しており、今回運用を開始したものは6世代目にあたる。しかし、今回の刷新は従来とは大きく異なるポイントが2点あったという。

第1は限られた予算の中で、処理性能を1世代前に比べて大きく増強できた点だ。

「当研究所のスパコンは、研究者が無料で使えて使い勝手もいい点が大きな特長です。しかし最近の研究は膨大な計算処理を行うものが増えており、機械学習や深層学習を使ったものも多くなっています。そのため、より高い処理性能を確保することが求められていました。当初は前世代の3倍の処理性能にすることを目指していましたが、これまでとほぼ同じ予算の中で、3倍の性能を得ることは、難しいだろうと感じていました」(板垣氏)。

このような悩みに対して解決策を提示したのが、デル・テクノロジーズだった。同社の提案は前世代のスパコンに対し、処理性能を3.8倍にまで高め、ペタFLOPSを超える性能を実現するというもの。このパフォーマンスの高さは他社の提案を圧倒しており、2020年6月に実施された入札で採用された。

「実際に採用する前に、一般的なスパコンのベンチマークを含め合計5つの計算で検証を行い、これらを点数化しました。その結果、他社提案と同じ価格で用意できる計算資源の物量に優れており、性能も圧倒的に高いという結果になったのです。また価格性能比だけではなく電力なども含めた総合評価でも、デル・テクノロジーズが最高得点となりました」(板垣氏)

なぜこれだけの価格性能比が実現できたのか。その理由は大きく2つある。

1つは1ノードあたりのソケット数を多くしたことである。前世代のものは1ノードあたり2ソケットだったが、今回は最新インテルプロセッサを搭載できるソケットを4基実装したサーバーを計算ノードとして採用している。またAIなどで威力を発揮する並列処理プロセッサを搭載した計算ノードも実装。つまり1つのノードでより多くの計算ができるようにしているわけだ。

もう1つはノードあたりのメモリ容量の増強だ。「理論物理学の研究では膨大なデータを扱うことが多く、メモリ容量が処理性能に直接的な影響を与えます」と西道氏は語る。

新システムへの移行も
驚くほどスムーズに

従来のスパコン更新に対する第2の違いは、移行がスムーズに進んだことである。これまで同研究所において、スパコンの世代交代には、様々な問題が発生していた。その中には、それまで動いていたプログラムが動かなくなりライブラリを書き換えたケースや、既存プログラムは動いたもののその計算結果が変わってしまったケースなどもあったという。

「今回はこのようなトラブルの報告は聞いていません。むしろ、海外の研究所と同様のグローバルスタンダードなシステムになったため、以前よりも使いやすくなったという評価を多くの研究員からももらっています」(板垣氏)

またシステム自体の安定性が高いことも評価されている。2021年5月の時点で既に半年運用されているが、これまでメンテナンスによる計画停止以外でシステムが止まったことはない。「Yukawa-21」は全国の理論物理学の研究者を支えているため、このような特徴も重要なのだという。

もちろんトラブルが発生していなくても、ユーザー対応は必要だ。新システムに移行すれば当然ながら使い方がある程度は変化するため、ユーザーから様々な質問が寄せられることになるからだ。これに対してもデル・テクノロジーズは、当初の期待を超える対応をしてくれていると板垣氏は指摘する。

「研究者からいただく質問は、ごく初歩的なものから極めて高度なものまで多種多様です。これらはメーリングリストで寄せられるのですが、本業が研究である、私たちですべてに対応することは現実的ではありません。これに対してデル・テクノロジーズは、このメーリングリストの受信者に入ってくれ、質問に対して即座に対応する体制を整えてくれました」

日本の基礎物理学研究を
加速する基盤として期待

それでは「Yukawa-21」への移行は、研究活動にどのようなメリットをもたらしているのか。

「スパコンの性能が3倍以上になったことで、単純計算ではこれまでの3倍のペースで論文が書けることになります。近年は、相応のコンピュータ資源を使った計算が必要な論文が主流になっており、世界的な研究競争に伍していくには『Yukawa-21』のような計算資源が欠かせません。私が所属する宇宙分野でも、新システムへの移行はスムーズに進みました。これまでは5年ごとに当たり前のようにプログラム改修を行っていましたが、今回はそのような対応も必要なく、ストレスを感じることなく処理性能アップを享受しています」(西道氏)

これに加えて西道氏は、1ノードあたりの処理性能やメモリ容量が増強されたことで、より多くのユーザーにとって使いやすくなっているという。

「ノードごとの能力が高ければ、一度の計算で確保すべきノード数を減らせるため、研究者にとっては有利だといえます。特に大学院生にとっては、より大きなメリットにつながるはずです。研究を始めたばかりのころは、先行する研究者が作成・公開しているパブリックコードを使用することが多いのですが、その中にはノード数が増えると本来の性能が出しにくいものも少なくないからです。少ないノードで目的の計算が行えればチューニングを施す必要がなくなり、より手軽に実行できます」

その一方で、マルチノードを意識したコードでも、その真価を発揮しやすくなっているという。400Gbpsに対応するスイッチとRoCE(ロッキー:Remote Direct Memory Access(RDMA) protocol over Converged Ethernet)の組み合わせによって、ノード数を増やしても性能劣化が発生しにくいシステム構成になっているからだ。

合計137台の計算サーバーは、400Gbpsに対応する「Dell EMC PowerSwitch Z9332F」ネットワークスイッチによるEthernetネットワークで接続されている。ノード間の通信はRoCE(ロッキー:Remote Direct Memory Access(RDMA) protocol over Converged Ethernet)で行われ、高速かつ効率的なネットワーク通信が可能だ

「今回導入したスパコンは、非常に優れた性能と安定性、コストパフォーマンス、そして手厚いユーザーサポートを兼ね備えた、完成形ともいえるものになっています。素粒子や原子核から銀河や宇宙の大規模構造の分析まで、自然の階層構造の中での全てスケールの物理現象の分析に、スーパーコンピュータをフル活用しているのです。日本の基礎物理学研究を支える根幹として、これまで以上に大きな役割を果たすことになると期待しています」と板垣氏は話した。

お問い合わせ

デル・テクノロジーズ株式会社

https://www.delltechnologies.com/ja-jp/solutions/high-performance-computing/index.htm

関連リンク

新世代PowerEdgeサーバーカタログ

https://japancatalog.dell.com/c/wp-content/uploads/PowerEdge-Catalog_210521.pdf