ITモダナイゼーションSummit 2017 レビュー

地味にスゴイ「データ仕様可視化技術」~その効用と適用事例~

ITモダナイゼーションによるシステムの再構築では、実は、現行のデータが抱える品質の問題が、工程を長引かせ、本番稼働後にトラブルを引き起こす大きな要因になっている。データの問題は、COBOLやJavaといった使用言語に関係なく、プログラムとは別に存在している。日立の「データ仕様可視化技術」では、現行データを投入するだけで、データの表現規則や全体構造を自動推測し、異常箇所を抽出。クレンジング等の対処に向けた有効な指針を提示する。

長年の運用によるデータの乱れがシステム再構築時のトラブルを生む

株式会社日立製作所
システム&サービスビジネス統括本部
アプリケーションサービス事業部
サービスソリューション本部
サービス統括部 部長
清水 薫

企業が今日の厳しいビジネス環境において勝ち残っていくためには、戦略性の高いシステムへの継続的な投資が不可欠だ。そのような観点に立った投資として、環境の変化にも強いシステムを目指したモダナイゼーションに着手する企業が増えている。そうした取り組みの中で、問題を引き起こす要因の1つとなっているのが、長年にわたるシステム運用の中で、システムのデータ仕様が複雑化し把握しきれなくなっていたり、異常データが混入していたりといった、データ品質の問題だ。「データの不備や不足にかかわる検証が十分でなかったことが、開発やテスト工程を長期化させ、さらには本番稼働後のトラブルにつながっているというケースも少なくありません」と日立製作所の清水薫氏は指摘する。

こうした事態を未然に防止するには、システムの再構築に当たり、データの現状調査を綿密に行って、問題点を抽出。その解消に向けた対策方針を定めて、クレンジングや名寄せといった対処を行うことが必要だ。もっとも、“現状調査”と口では言っても、実際のところ、そこには様々な難関が立ちはだかる。中でも、仕様書をめぐる問題は切実だ。

「長年運用してきたシステムでは、度重なる改修の中で仕様書が適正にメンテナンスされていなかったり、記述が曖昧だったり、そもそも仕様書自体が存在しないといったことも少なくありません。仕様書に頼れない、そのような状況で、何らの手がかりなしに膨大なデータの全体像を把握し、そこに存在する不整合や抜け、漏れに気づくのは至難の業だと言えます」と清水氏は語る。

現行のデータからデータの仕様と構造を推測

こうしたデータの現状調査にかかわる問題をトータルに解消するのが、日立の「データ仕様可視化技術」だ。その最大のメリットは、現行のデータを投入するだけで、データの書式や制約などを含む仕様を、自動推測によって明らかにし、同時に例外箇所まで抽出してくれることだ。

例えば、企業合併後に社員IDが混在したケースを想定しよう。データ仕様可視化技術で社員IDデータを処理すると、「英字+数字7桁」の仕様のIDと「数字のみ9桁」の仕様のIDが混在しているといった状況が、それぞれの形式の出現数や頻度(%)と共に一覧できる。この一覧を見れば、社員IDを8桁ないしは9桁と定めて、それ以外を異常データとして扱うなど、対処の方針もスムーズに立案できる。

データの特徴から仕様や例外を自動推測

さらにデータ仕様可視化技術では、投入したデータからその構造を自動推測することも可能だ。「具体的には、どのテーブルとどのテーブルが親子関係にあるかといったことを分析し、その構造をER図や一覧形式によってわかりやすく可視化。関連が途切れてしまっているデータを明らかにすることもできます」と清水氏は説明する。

また、膨大な量のデータのサマリを素早く確認できることもデータ仕様可視化技術の重要なメリットである。億件単位のデータも数シートというコンパクトなかたちでサマリされ、全データの網羅的な分析により、わずかな異常データも可視化しながら、短時間で全体を俯瞰することが可能となる。

「あるお客様で、想定外のデータの洗い出しに我々の技術を活用され、システムの本番稼働後のトラブルを未然に防止しました。92億件という膨大なデータが対象でしたが、分析結果の確認に要した時間はわずか8時間で、1割程度の項目に異常があることを究明しました」と清水氏は具体的な事例を紹介する。

そのほかデータ仕様可視化技術は、システム再構築のテストフェーズにおいても大きな威力を発揮する。例えば、現新比較テストにおいて、現行システムのデータと移行後の新システムのデータの双方をデータ仕様可視化技術によって分析。2つの結果レポートを突き合わせることで、データ移行プログラムの不備なども容易に発見できる。

あわせて、テストデータの生成に役立てることもできる。データ仕様可視化技術で既存データを分析して、データの仕様と本番データのバリエーションを可視化。その内容に沿うかたちでテストデータを自動生成することができ、想定され得る本番データのバリエーションを網羅したテストが実施できる。

日立のデータ仕様可視化技術の特徴

IoTやAIなど最新のデータ利活用を支えるツールとしても大いに有効

ビッグデータ、IoTの時代を迎え、データ利活用の重要性はさらに高まっている。こうした局面でも、データ仕様可視化技術は有効である。例えば人工知能(AI)を使ってデータを分析するには、現行システム上の業務データに内在する、欠損値の補完や特異値の除外を実施し、マスタ系項目の把握やマスタ不足の確認などを行って、クレンジングや加工を施すといった準備作業が必要となる。

「既存データを利活用可能な状態にするには、そうした地道な準備作業が必要で、とりわけデータの仕様把握には多大な労力を要します。データ仕様可視化技術を利用すれば、そうしたAIへのインプットに必要な事前作業なども大幅に効率化することができます」と清水氏は強調する。

変化する市場環境に対応するには、保有するIT資産を生かしながら、システムをより変化に強いものへと再構築していくことが有効である。そうしたITモダナイゼーションの取り組みの阻害要因となりがちなデータ品質の問題を解消しようとするとき、日立のデータ仕様可視化技術は注目である。

お問い合わせ

株式会社日立製作所

サービスプラットフォーム事業本部
事業推進本部 ミドルウェアソリューション窓口

midsol-p@itg.hitachi.co.jp

▲ページの先頭へ