高精度の未来予測を、すべての企業に。「予測分析自動化技術」が革新的にデータ分析を変える。

これまでのデータ分析は「過去に何が起こったのか」を可視化することが主だったが、現在多くの企業が喫緊の経営課題に挙げているのは、デジタル化によって得られるビッグデータを「未来予測」に活用することだ。
しかしながら、膨大なデータを分析し、未来を予測するのは簡単なことではない。優秀なデータサイエンティスト人材を確保し、十分なリソースをつぎ込むことができる企業は限られる。NECが開発した「予測分析自動化技術」は、データから未来予測モデルを自動に生成するテクノロジー。本格的なビッグデータ分析を、より効率的に実現できるソリューションとして注目され、多くの企業で導入が進んでいる。
欧州・米国・アジアで開発チームを率いる藤巻 遼平氏と、日本IBM、日本テラデータでデータ分析・活用のプロフェッショナルとしてキャリアを重ね、NECで本ビジネスの事業加速を担う森 英人氏に、「予測分析自動化技術」の革新性とビジネス活用での可能性について聞いた。

立ちはだかる「データ分析をすること」と
「ビジネス活用」のギャップ

──ビジネスでのデータ利活用において、スピーディーで精度の高い分析が行えるAI「予測分析」が海外では主流となっていると聞きます。この予測分析とはどのようなテクノロジーなのでしょうか。日本企業の現状についてもお聞かせください。
NEC データサイエンス研究所 主席研究員 藤巻 遼平氏
NEC
データサイエンス研究所
主席研究員
藤巻 遼平
藤巻 データ分析から“予測モデル”をつくるテクノロジーです。日本で「予測分析」というと、先進的な企業だけが導入し始めている印象を持っていると思いますが、海外ではとてもメジャーなテクノロジーだといえます。しかし多くの企業がデータ分析・活用に取り組んでいるものの、データ分析結果とビジネス活用との間の大きなギャップが課題となっています。つまり、分析はしてみたものの、その結果をビジネスの成果につなげることができず、データ活用のROI(投資対効果)が上がらないというものです。

NEC ビジネスイノベーション統括ユニット エグゼクティブ・ディレクター 森 英人氏
NEC
ビジネスイノベーション統括ユニット
エグゼクティブ・ディレクター
森 英人
 確かに、「エンジン故障の予兆を事前に見つけたい」「ローンの貸し倒れが起こる前にお客さまの審査を厳正化したい」といったビジネス要求は明確なのですが、そのために必要な分析のユースケースを正しく定義できず、成果につながるデータ活用が実現できていないことが要因の1つだと感じます 。

藤巻 別の理由として、データサイエンティスト不足と負担が大きすぎることが挙げられます。今までは熟練のデータサイエンティストが仮説を立て、予測モデルを構築してきました。仮説を立てるにはあらかじめ膨大なデータをクレンジングし、どのデータに注目するか、といった特徴量を作成し、機械学習のアルゴリズムをチューニングするなど、高精度な予測モデルが得られるまで試行錯誤を繰り返します。

 結果、1つの予測モデルを作成するまでに数カ月の時間を費やすこととなり、作成した予測モデルを課題解決に結びつける施策を検討し、実行する時間がなかなか取れない。本当に必要なところに、十分なリソースを充てられていないという実情もあると思います。

──データサイエンティスト不足は日本の大きな問題といわれています。
 少し私の経歴をお話しさせていただきますと、私はこれまで、業務データを業務とは違う観点からどのようにビジネスに生かしていくか、というテーマに取り組み、日本IBM、日本テラデータ、とキャリアを重ねてきました。実際、私のキャリアはそのままデータ活用の歴史ともいえます。

 四半世紀前から、IBMで超並列データベース技術によるデータウエアハウス構築に取り組み、その後、アセンシャル・ソフトウエアの日本法人責任者としてデータの精度やガバナンスに注力しましたが、そのときはデータ基盤構築に焦点が当たった時代でした。その後、時代の流れがIT部門からビジネスユーザーにシフトしたことに伴い、「IBM SPSS」「IBM Cognos」などデータ基盤上でビジネスユーザーが利用するアナリティクス系ソフトウエアを含めた全アナリティクス関連製品を統括する責任者を務めました。ここまではハードウエア/ソフトウエア環境を整備する時代だったわけです。

 その後、データをビジネスに活用するためのコンサルティング事業も担当し、そこでIBM Watsonをビジネス活用するためのワークショップを実施したこともありましたね。ここまでは、「ベンダーはテクノロジーを提供します、データ活用のシナリオも指南します。さあ後はお客さまがご自由に自分のデータを使ってビジネスに活用しましょう」というアプローチだったわけです。

 2017年に日本テラデータへ移って、実際に分析業務をデリバリーするアナリティクス・ビジネス・コンサルティング担当執行役員としてビジネスコンサルティングからデータサイエンティストの領域までの事業を担当。データから隠れた意味を見いだし、それに基づいて予測モデルを作成し、故障予知、不正利用防止、といったデータ分析結果を具体的に未来に役立てるという業務を、主に製造業、金融業のお客さまと取り組んできました。

 そこで直面したのがデータサイエンティスト不足という課題です。

 藤巻が話したように、データ分析は人のスキルとひらめきに頼る傾向が強く、特に予測モデルの精度に決定的なインパクトがあるデータ整備や特徴量の抽出に、非常に膨大な時間と工数がかかっていました。私自身、ここは「人間しか出来ない領域」と思い、データサイエンティストのリソースがネックになることは致し方なし、と諦めていたのですが、この領域を、自動で、しかも短時間で導き出すという非常に画期的な技術をNECの藤巻が開発したと知り、「本人に会ってみたい」という衝動にかられて私費で北米へ飛びました。結果、非常に素晴らしい技術であることを目の当たりにし、私はNECに移籍して藤巻をサポートしていくことを決断しました。

 この予測分析自動化技術を活用することは、データサイエンティスト不足を解消するだけでなく、世界中の企業において分析技術が活用され、新たなビジネスを創出するチャンスになると思います。データで未来を予測し、データで未来を変えていきたいですね。

誰もが簡単に精度の高い予測モデルが作成できる
NECの「予測分析自動化技術」、3つの特長

──NECの「予測分析自動化技術」について特長を教えてください。
藤巻 「特徴量の設計の自動化」「予測モデルの設計の自動化」、そして「ホワイトボックス化」。この3つが大きな特長です。中でも特徴量の設計は、機械学習が世に登場して以来、長年「人間でなければ絶対に無理」といわれてきた領域で、先にも述べましたが、ベテランのデータサイエンティストでも頭を悩ませ、非常に多くの手間と時間を費やすことになっていた作業です。我々はこれを自動化するテクノロジーを開発できたことで、圧倒的な作業時間の効率化を図ることができました。

 この技術の画期的な点を説明するには、まず「特徴量」の説明が必要です。

 予測モデルの作成というと、事業活動で継続的に蓄積した膨大なデータを機械学習にかけることで、傾向などを学習し、予測モデルを作成しますが、この際に機械学習のパラメータを調整するのが難しいというのが一般的なイメージかと思います。このプロセスにおいて、機械学習のパラメータの調整以上に分析結果に重大な影響を及ぼすのが、過去の顧客の行動や商品の売れ行きといった機械学習に入力する変数、すなわち「特徴量」です。

 「Garbage in, Garbage out(ゴミを入れたらゴミが出る)」といわれるように、予測モデルの作成の成否を決めるのは、どれだけ有効な特徴量を作成し、機械学習に学ばせることができるかにかかっているといっても大げさではありません。

 なぜ、この設計作業は「人間にしかできない」のか。それは、有効な変数を決めるのはビジネスのコンテキスト(文脈)にほかならないからです。重要な変数は、金融や流通、製造といった業種はもちろん、企業ごと、部門ごとにすべて異なる。そのため、これを見極めるにはビジネスの文脈を深く理解している必要があるのです。
──AIはそれがわからないので、特徴量を設計することはできないということですね。しかし、人間が行うにしても、多くの労力や時間がかかりそうです。
 その通りです。何万、何十万ものデータ項目から、ビジネスの目的に合うデータに当たりをつけて、数十項目に絞り込むのは簡単なことではありません。手間も時間もかかる上に、それが行えるのは経験とスキルを備えた“匠”だけ。特徴量の設計は、極度に属人化された、高負荷な作業でした。

藤巻 我々は独自のアルゴリズムによってそれを自動化しました。詳細は非公開ですが、業種や企業、事業部によらず、使うのはたった1つのアルゴリズムだけ。ここにデータを投入することで、AIが個別のビジネスコンテキストを基に特徴量を設計してくれます。その際に、事前に業種知識を大量に教え込ませる必要がないというのも重要なポイントです。

 こうして機械学習を重ねて作りだした大量の予測モデルから、目的に合わせた最適な予測モデルを選択/組み合わせる作業も自動で行うことができます。この一連のプロセスを可能にした技術が、我々の予測分析自動化技術です。

──データサイエンティストの役割や業務内容が大きく変わりそうですね。
図1 NECが実現する予測分析自動化 図1NECが実現する予測分析自動化 藤巻 そう考えています。事前準備の負担が大きく削減できるほか、分析結果を基にビジネス施策を考えるなど、より上流の、ビジネスコンセプトの設計業務などに注力できるようになるでしょう。人間ならではのクリエイティビティが要求される領域で力を発揮できるようになるはずです。

AIがなぜその予測モデルを導き出したのか
「理由」を自然言語で提示する

──もう1つの特長である「ホワイトボックス化」についても教えてください。
藤巻 AIがなぜその結果を導いたのか、「理由」が見えるということです。

 私たちは、分析結果をビジネスで活用する以上、「導き出した過程や理由は人間が理解できる状態で可視化されるべき」というポリシーを持っています。理由がブラックボックスでわからなかったり、機械にしか理解できない状態で表示されたりするのでは、ビジネスアクションにつなげることは困難だからです。これはサービス化を見据えて必須の機能だと考えていました。

図2 根拠がわからないブラックボックス型AIと、根拠がわかるホワイトボックス型AI 図2根拠がわからないブラックボックス型AIと、根拠がわかるホワイトボックス型AI  考えてみてください。どんなに信憑性が高そうな分析結果でも、「理由はわかりませんが、AIがそういっています」で経営層を説得できるでしょうか。予測分析自動化技術では、日本語を含む自然言語で、結果を導いた理由をAIが教えてくれます。これにより、現場の課題である分析技術とビジネスの乖離も埋めることができる。これも非常に画期的な技術だと自負しています。

──研究開発の過程では、多くの実証実験も進めてきたそうですね。
藤巻 2017年の1年間、様々な業界のお客さまの協力を得て、実証実験を行ってきました。

 例えば三井住友銀行(以下、SMBC)さまは、複数のデータサイエンティストからなるプロジェクト体制をとって、1つのテーマの分析を2〜3カ月もの時間をかけて行っており、刻々と変化するお客さまのニーズを十分にとらえることができないという問題に直面していました。予測分析自動化技術を試験的に導入したところ、たった1日で作成された予測モデルが、従来と同等か、それ以上の精度で実現できることがわかりました。

 その結果から、SMBCグループでの活用を進め、ご自身で「予測分析自動化技術」を使い、既に数十件のモデルを実用化されています。

 SMBCさまからは、今後もマーケティングだけではなく、金融業務全体を変革するために活用を進めていくとうかがっています。

 日本航空(以下、JAL)さまは、既に様々な領域でAIを活用したデータ分析の高度化を取り組まれていますが、保有する膨大なデータをどのように活用するかが課題となっているとうかがい、JALの会員を対象に、JALさまが運営するホームページ(航空券予約サイト)でのアクセスログや会員の属性情報などの多様かつ大規模なデータを使用して予測分析自動化技術の有用性を検証しました。具体的には、会員のデジタルの行動ログから、ハワイなど特定路線の航空券を購入するユーザーを予測しました。
※個人が特定できる情報を除く

 JALさまからは、航空業界に関する知見を入力することなく経験豊富なデータサイエンティストと同程度の予測精度を達成できたという点に加えて、時間軸を考慮したページ閲覧行動や特定の購入手段による購買回数などの顧客行動が特徴量として発見された点を高く評価していただきました。それらの特徴量は、JALさまにとっても思いもよらない、あるいは指摘されなければ試そうとも思わなかった知見が数多く含まれており、また特徴量がホワイトボックスであるためビジネスで解釈し、新たなビジネスアクションにつながるためです。

 既に、SMBCさまやJALさまに加えて、複数の業界のお客さまと実証実験を実施させていただきましたが、業界や業務にかかわらず同様の評価をいただいています。また、新たなお客さまとの検証を進める中で、技術自体が進化を続けており、今後も自動化の領域は広がっていくという、開発者としての自信も新たにしています。あとは1日でも早く、お客さまに使っていただけるかたちを整えたいですね。

 予測分析自動化技術を用いたサービスは、2018年度上期のリリースを目指して準備中です。この技術が広まることで、データ分析がもっと当たり前に、企業活動の一部となっていけば素晴らしいと思います。それにより、世の中に出まわる商品やサービスの質が向上し、人々の生活がより上質に快適になる。私と藤巻は、そう信じています。
関連リンク
sponsored by NEC