ITインフラSummit 2021 Summer Review

IT基盤のDevOpsをリードするSREチームのあり方
~決済ビジネスの変化を支える強くしなやかな基盤への挑戦~

NTTデータ
技術革新統括本部システム技術本部デジタルテクノロジ推進室 主任
山下 貴之

NTTデータは、2018年に「デジタルテクノロジ推進室」を設置。顧客企業のDXを共創することをミッションとする技術コンサルタント「デジタルテクノロジーディレクター®」を擁し、新たな価値創造に取り組んでいる。本講演では、デジタルテクノロジーディレクター®の山下貴之氏が、DXを目指すITインフラチームのあり方について、同社の決済サービスにおけるSREチームの事例をもとに詳しく解説。一歩踏み出すための道標ともなる、多くの提言があった。

ITインフラチームはDXの主役になれる

NTTデータ
山下 貴之

日本企業の90%以上が、DX(デジタルトランスフォーメーション)に未着手、もしくは散発的な取り組みにとどまっているという。このままのペースでは、約70%の企業は十分にDXが実施できないまま2025年の崖を迎えかねず、DXの加速は急務だ。

山下氏は、DX加速のヒントは「ITインフラチームの変革」にあると指摘する。「ITインフラチームが経営層の描くビジネスや変革の必要性を適切に理解した上で、前のめりでDXに取り組むことが欠かせません。経営層からのトップダウンのアプローチに加え、インフラチームからのボトムアップのアプローチを行うことで、組織全体でDXを推進します。ITインフラチームはDXの主役になれるのです」(山下氏)。

NTTデータのITインフラチームがDXの主役を担った実例として、決済サービスにおけるSREチームの事例が紹介された。「SRE」(Site Reliability Engineering)とは、サービスレベル達成のためのDevOpsの実践的な方法論である。山下氏は「ソフトウェアエンジニアリングを駆使することで、サービス運用を高度化することが最大の特徴です」と説明する。

NTTデータがSREチームを組成した背景には、決済サービスにおける事業環境の変化があった。キャッシュレス決済の浸透などに伴って競争が激化し、変化がより大きく、より早くなっている。

「変化に対応するためには、商品開発力やサービス提供力の向上が不可欠でした。そこで、『高い商品開発力と安定的なサービス提供力の土台を作る』ことをミッションとしたSREチームが2年前に組成されました。SREチームでは『信頼性が高く、変化に強いクラウドネイティブ基盤の実現』と『高い商品開発力を支えるIT環境やツールの提供』を目指しています。これらを実現するために、SREの考え方を取り入れた価値観をチーム内で共有しています。例えば『コードを書こう』『技術負債と戦おう』『最強のトラブルシュート集団になろう』などが挙げられます」(山下氏)

従来のITインフラチームと比較したSREチームの特徴

次に山下氏は、従来のITインフラチームと比較したSREチームの特徴を3つ挙げた。

1つ目は、「ITインフラを進化させ続ける」ことだ。従来のITインフラチームでは、ウォーターフォールモデルで基盤を開発した後は、EOLまでの5年間は極力放置するといったケースが多かった。これではビジネスの変化を支えられるような、変化に強いプラットフォームは作れない。

SREチームでは、アジャイル的に開発することでビジネスや技術の変化をとらえて柔軟に対応しているという。さらに技術負債をこまめに返済でき、システムの肥大化やサイロ化などを事前に回避しやすいといったメリットもある。

「ただ、私自身も、初めはシステムにこまめに変更を加えるといったことに抵抗がありました。わざわざリスクを負ってでも変更しないといけないのかと」(山下氏)。ところが実際に改善を繰り返すなかで、モニタリングの強化や自動デプロイの仕組みが追加されるなど、システム運用がどんどん高度化されていくのを目の当たりにして、考え方が変わっていったという。「やはり変わり続けられるのは強いなと。変えるリスクから逃げるのではなくて、変えるリスクを自分たちでコントロールすべきだと思うようになりました」(山下氏)。

SREチームの特徴2つ目は、「ノンコアな運用業務を自動化して生産性の高い運用を追求する」ことだ。運用作業に多くの人的リソースを割いていては生産性が上がらないのはもちろん、システムが増えるにつれ作業コストは増大するばかりだ。

「SREチームでは、繰り返し発生する運用作業は原則自動化していきます。手間暇をかけて運用レポートを作ったり故障連絡をするのではなく、運用状況をリアルタイムで確認できるダッシュボードを作り、それをお客様にも開示するような世界観を目指しています」(山下氏)

SREチームの特徴3つ目は、「アーキテクチャの全体最適化を強くリードする」ことだ。従来はAP開発チームからの要望への受け身な対応が中心であった。そのように受け身では、個々の業務に最適化されるかもしれないが、サイロ化が進むことで横断的なシステム連携が困難になり、新しいサービス創出などの足かせになってしまう。

「SREチームの場合、全体最適化の観点で、業務開発チームにアーキテクチャの改善を提案します。システム横断での連携が容易になるとともに、組織全体の技術力向上や改善マインドの醸成につながり、全体のデジタル化に良い影響を及ぼすことができます。DXの主役になれると言った一番の理由は、このITインフラチームの影響力の大きさにあると私は考えています」(山下氏)

目指すITインフラの姿

続けて山下氏は、SREチームが目指すITインフラの姿とそこに至る経緯を次のように語った。

SREチームのビジョンのひとつである「信頼性が高く、変化に強いクラウドネイティブ基盤の実現」のためにクラウドジャーニーに出航し、AWSで実験的にコンテナベースのアーキテクチャを採用するところから始めた。

「自動化」や「可視化」といったSREのプラクティスを積極的に取り入れたアプローチを行うことで、アジリティを確保しながらも、目標レベルのサービス稼働率を実現できるようになった。振り返ると、サービス開始後も継続的に改善を繰り返し、良い取り組みはシステム間で横展開して全体でレベルアップを図ったことも、成功要因のひとつである。これは、まさに前出のSREチームの特徴「継続的に進化」「全体最適化」そのものだった。

しかし、サービス開始後2年の間に、自分たちではコントロールできないクラウド障害に複数直面することになる。なかには回復するのを祈ることしかできないケースもあった。「単に高い稼働率を実現するだけでなく、自分たちで障害をコントロールし、何かあった場合にはしっかりと説明責任を果たすことが、決済インフラとしての社会的責任を果たす上で重要であることを再認識しました」(山下氏)。

▲ページの先頭へ

INDEX