社内データの活用は進めているものの、それだけで十分なのか――。最近はこのような疑問を持つ企業が増えている。しかし、サイロ化したシステムでは企業間のデータ共有や共創を行うことは難しい。その解決策として期待を集めているのが、クラウドベースのプラットフォームを用いて、エコシステムも含めたすべてのデータの一元的な利活用を実現する「データクラウド」である。Snowflakeの講演では、それを具現化した「Snowflakeプラットフォーム」の全体像やメリット、活用例が紹介された。
既に多くの企業が、DX実現に向けて推進しているデータ活用。しかし社内データだけでは価値創造に限界がある。
「フォレスターの調査によると、実際に、社外データを利用する力を拡大したいと考える意思決定者の割合は、87%に達しています。しかし現状ではまだ多くのデータがサイロ化しており、これが利用を阻む要因になっています。今後データから価値を生み出していくには、このようなサイロ化を解消し、企業間のデータ共有やオープン化が重要になってくると考えられます」とSnowflakeの井口 和弘氏は指摘する。
データのためにSnowflakeが提唱しているのが「データクラウド」というコンセプトだ。「これは企業やデータプロバイダーを、それぞれのビジネスに最適なデータにつなぐ、統一された1つのグローバルシステムです。当社は既に、このコンセプトを実現するためのサービス『Snowflakeプラットフォーム』を提供しています」(図1)。
「伸縮性のある高性能エンジン」「インテリジェントなインフラストラクチャー」「SNOWGRID」で構成されており、その中でも重要なのが「SNOWGRID」だ
Snowflakeプラットフォームは大きく3つの要素で構成されている。第1の要素は「伸縮性のある高性能エンジン」だ。これはデータサイエンスやデータエンジニアリング、ビジネスインテリジェンスなどのあらゆるデータ処理をSQL、Java、Pythonなどの様々な言語で対応できると同時に、伸縮性や同時実行性に優れており、同時アクセスや検索対象のデータボリュームなど、パフォーマンスに必要な要素を考慮した、瞬発的かつ伸縮性のある拡張を行うことができるという。
第2は「インテリジェントなインフラストラクチャー」だ。これによって、「ニアゼロメンテナンス」なサービスを提供している。ソフトウエアのインストールやバージョンアップ、データベースチューニングといった作業は一切不要。ユーザーの管理負担を極限まで軽減できる。
そして第3が「SNOWGRID」である。これはマルチクラウド、マルチリージョンでのデータサービスを提供する上でコアとなる技術であり、クラウドプロバイダーやそのリージョンをまたいだデータ接続性やレプリケーションを可能にするもの。これによって、ETLが不要でサイロのないデータ共有や、複数クラウドをまたいだガバナンスコントロールが可能になるという。
「ガバナンス関連機能としては、まずSnowflakeにロード、管理されているデータが、どこから来て誰が使っているのかを把握した上で、アクセス管理や権限設定などが行えるようになっています。またこれらのデータを適切な形で使えるように、アクセスするユーザーに応じて、暗号化や匿名化、特定のカラムの動的なマスキングや特定の行へのアクセス制御なども行います。そしてこれらの処理を、1つのデータセットに対して動的に実行。そのため『コピーして加工する』といったことを、一切行う必要がないのです」(井口氏)
従来のように「コピーして加工する」という工程が必要な場合には、当然ながらデータ利用可能になるまでに時間がかかる。またその工程にはコストもかかり、エラーが生じる危険性や、移動に伴うセキュリティ面でのリスクもある。これを完全に排除したことで、スピード、コストダウン、エラーの最小化や安全性・ガバナンスの確保が容易になったわけだ(図2)。
SNOWGRIDでは1つのデータセットに対して動的なアクセス制御が行えるため「コピーして加工」する必要がない。その結果、ガバナンスの効いたデータ共有をスピーディに行うことが可能になった
Snowflakeプラットフォームを利用したデータ共有方法は様々な手段があるが、代表的な形としては大きく2つのアプローチがある。
1つは「データマーケットプレイス」。これはデータ提供のためのストアであり、顧客はこのストアで提供されたデータを利用するだけではなく、顧客自身がデータプロバイダーになれる。もう1つは「データシェアリング」。こちらは特定の相手とのデータ共有を実現するもの。「1対1」でのデータ共有に加え「1対多」での共有も可能だ。
「この2年で急速にデータクラウド上でのデータ共有が進んでいきました」と井口氏は語る。Snowflakeでは業界ごとにデータクラウドを推進しており、メディア業界や小売業向け、金融業向けなど複数のデータクラウドが存在。既に様々な成果を上げている。例えば米国でペット関連事業を手掛けるPetcoのケースはその1つだ。
「Petcoはもともとオンプレミスのデータベースでデータ分析を行っており、広告代理店ともデータを共有しています。しかしデータ量が爆発的に増えた結果、データをやり取りするのに1回あたり40時間かかるようになりました。これをデータクラウドに移すことで、代理店とのデータ共有を10倍にまでスピードアップ。データ共有に要する時間は数秒程度、準備時間をあわせても数時間で完了するようになったのです。もちろんデータ共有基盤の運用管理も不要になりました」(井口氏)
共有可能なデータの種類も、構造化、JSONなどの半構造化、そして非構造化まで幅広い。またデータ分析や機械学習などを提供しているパートナーも存在し、彼らのソリューションを「伸縮性のあるエンジン」で実行することも可能。データへの「アクセス」や「ガバナンス」だけではなく、「アクション」までカバーされている。
「データクラウドに参加することで、自社のデータだけではなく社外のデータも幅広く活用できるようになり、より多くの知見が得られるようになります」と井口氏。「ぜひその威力を体験し、新たな価値創造に役立てていただきたいと思います」。