データ分析を成功に導く3大要素とは？円滑な分析は「データ管理プロセス」と「マスターデータ管理」が左右する

定型帳票でデータ分析した結果を生かし、経営判断を効率化するDX（デジタルトランスフォーメーション）に取り組む企業が増えてきた。昨今はAI（人工知能）も組み合わせた自由なデータ分析へと発展させて、自動予測などに活用したいというニーズも拡大している。しかし、その前段階であるデータの収集においても「差分データだけを取得したい」「データの品質をチェック、改善したい」「トランザクションデータとマスターデータを紐づけられない」といった壁にぶつかる企業は少なくない。また、データを扱うためのプロセスも厳密に定義しないと、データ流出などのリスクも高まる。データ管理ソリューションで高評価を獲得しているインフォマティカ日本法人の松林晶氏が、こうした壁を乗り越えるポイントを語った。

各種データの収集から管理、ガバナンスまでを支援するクラウドベースのソリューションを提供するインフォマティカ。米国で1993年に設立後、マイクロソフトやAmazonなどとパートナーシップを構築しながら業績を拡大してきた。

同社の日本法人でプリセールスエンジニアを務める松林氏は、DXには以下の“三種の神器”を既に導入済みの企業が多いと語る。

非構造化データを含むローデータを格納する「データレイク」分析や帳票に必要な構造化データを格納する「データウエアハウス（DWH）」データ解析結果を可視化し経営判断に役立つ予測情報を出力する「BI（Business Intelligence）、AI」

インフォマティカ・ジャパン株式会社

テクニカルセールス本部

プリンシパルソリューションアーキテクト

松林晶氏

一般的な使い方は、集めたマスターデータやトランザクションデータをDWHで一元管理し、結果情報をBIで定型帳票として確認するというものである。ツールを使うことで、迅速に経営判断や意思決定ができるメリットがある。

だが、DXの目的はこうした定型分析だけではないはず、と松林氏は呼び掛ける。「自由に使えるデータを置き、仮説に基づく分析をすることで、自動予測やプロセスの自動化、価値あるデータの生成、そこから新規の製品・サービスの開発などにつなげようと目指す企業が増えています」。

社内で利用可能なデータを保管し、自由分析などに生かすには「データ管理」「プロセス管理」「組織づくり」――の3点がポイントになる、と松林氏は強調する。

データ管理については「データを集めるだけでも困難があります」（松林氏）と指摘する。データを収集する際にセキュリティに抵触しないかなどのガバナンス面に配慮しなければならないことに加え、AIデータ分析の精度向上のために最新の差分データを定期的に抽出したい状況が考えられる。この差分の抽出工程もしくはその後の工程でデータの品質の改善・チェックが不可欠だ。例えば、データのフォーマットにばらつきがある、または売上データなどのトランザクションデータと顧客情報や商品情報などのマスターデータがうまく紐づかず、分析自体ができない、もしくは分析結果の正確性が損なわれる、といったことも起こり得る。「DWHの中に部門ごとのデータマートをつくり過ぎた結果、各マートへのデータ統合処理時間が大幅にかかるといった問題もよく起こります」（松林氏）。

次のプロセスの管理について、松林氏は「多様なデータが必要となる自由分析では、AIエンジニアの人手も多くなり、プロセス管理の範囲が拡大・複雑化します」と指摘する。

具体的には、まず仮説を立案し、必要となるデータを検討しカタログで探索する。データが見つかったら、データ所有者へ利用申請しアクセス権を得る「データセット利用申請」の過程がある。データ利用可否の承認工程では、ロール・品質チェックや法令ポリシーに準拠しているかなど、厳格な確認プロセスをクリアしなければならない。

データ利用の承認後は、AIエンジンに読み込ませるためのデータの前加工処理を施す必要がある。松林氏によれば、最近のAIエンジンは多次元データベースを前提としているケースが多いため、多次元ベクトルデータを管理できる「ベクターDB」へデータを投入しなければならない。そのための前加工処理として、自然言語のデータを意味のある単位に分割する「チャンキング」や、そのデータを数値化する「エンベディング」の工程も欠かせなくなっているという。

これらのデータの発見から、理解、利用申請、データアクセス、前加工処理のプロセスは、迅速な自由分析、リスク軽減のために必要なプロセスとなる。

AIエンジンに読み込ませた後は、分析結果を確認し仮説を検証していくというのが一連の自由分析のプロセスだ。このプロセスを円滑に進めていく上で非常に重要なのが、事前にマスターデータを管理しておくことである、と松林氏は力説する。

マスターデータ管理のプロセスは、入力システムの違いから2通りに分類できる、と松林氏は説明する。1つは、データをマスターデータ管理システム（Master Data Management：MDM）の画面から直接入力する形態で、もう1つはCRM（Customer Relationship Management：顧客関係管理）やERP（Enterprise Resource Planning：企業資源計画）、クラウドアプリケーションなどで入力し蓄積したデータをMDMに集めて名寄せや品質改善をした上で管理する形態である。両者をマスターデータの種類に応じて使い分けるケースもある。

DXを高速・安全に推進するためのプロセス案 — 自由分析を進めるには多くのプロセスを経なければならず、松林氏はプロセス通りに進めていくには「マスターデータ管理のプロセス整備が前提条件として必要」と解説する

最後の「組織づくり」におけるポイントとして、松林氏は同社のソリューションを活用している外資系製薬会社の事例を紹介した。

自由分析では当初から明確なゴールが定まっているケースは多くないため、ともすれば経営改善に寄与する成果が得られない恐れもある。「データ分析で得られる成果の仮説を事前に立てておくほうが成功している事例が多いです」（松林氏）。

この製薬会社は、自社のみで自由分析の仮説を立てるのではなく、センサー技術や治療法開発など、各分野を得意とするパートナー企業と共に仮説の立案を行い、プロジェクトを進めている。最近では産学連携で、仮説の立案に大学のエキスパートを招へいする事例も多い。この事例を踏まえ、松林氏は「組織づくりでは仮説を立てられるチームを組み入れることが重要ですが、それが得意なパートナーがいるなら必ずしも仮説立案は社内メンバーでなくても構いません」と助言する。一方で「データを扱うのが自社メンバーだけではなくなるため、データのアクセス管理は非常に重要」とも警鐘を鳴らす。

拡大・複雑化する自由分析のプロセスではトラブルや遅延、データ流出リスクも発生しやすく、対処するには高品質なデータ管理ソリューションを用いたデータ管理・プロセス管理が有効である。

インフォマティカが提供するソリューション「Intelligent Data Management Cloud（IDMC）」を使えば、こうしたプロセスを迅速に処理できる。データの差分抽出やクレンジング、マスターデータ管理、データアクセス管理など、データ分析プロジェクトに必要な一連の取り組みをサポートする仕組みを搭載している。

インフォマティカ・ジャパン株式会社

https://www.informatica.com/ja/

データ分析を成功に導く3大要素とは？円滑な分析は「データ管理プロセス」と「マスターデータ管理」が左右する

自由分析のポイントとなる「データ管理」
ガバナンス統制や差分抽出で難局

プロセスが拡大する自由分析
肝はマスターデータの管理

AI分析は適材適所で実行すべし
組織づくりに社外の力を借りることも

定型分析・自由分析のためのデータ管理を
トータルでサポート