「75%の企業がAI(人工知能)を活用できなければ5年以内に廃業すると考えている」。この衝撃的な数字が世間を騒がせたのは既に数年前のことだ。このような危機感がデータ活用や機械学習/AIの活用、さらには生成AI活用の民主化までをビジョンに掲げるDataikuが世界中のユーザーから評価される背景でもある。同社は、コーディングしないユーザーでも簡単なクリック操作で分析やモデルの開発ができるなど、操作性と拡張性に優れるAIプラットフォームを開発し提供している。世界規模で多くのユーザー企業が評価する、Dataikuのその使いやすさのポイントとは――。
2013年にパリで創業し、グローバルにAIプラットフォームを提供するDataiku。既に600社以上のユーザー企業を抱え、AI関連メディアのスタートアップ企業ランキングでは3位以内にランクインしている。2022年に設立した日本法人の松島 七衣氏は、「DataikuのUI(ユーザーインタフェース)の日本語化を2024年1月より開始しました」と本格的な拡大を強調した。データ専門家だけでなくビジネス専門家が利用可能なシンプルな操作性や、データパイプラインをエンドツーエンドでカバーするプラットフォームとしての機能性に加え、日本語対応が進んだことで、国内企業の注目度が高まっている。
Dataiku Japan
セールスエンジニアリングシニアマネージャー
松島 七衣 氏
AI活用のポイントは民主化

同社が2023年に行ったグローバル企業を対象にしたAI導入に関するアンケートによると、64%の企業が「1年以内に生成AIを導入することをほぼ確定している」と回答したという。しかし、データ活用の普及が難しい中、全社員が生成AIまで使えるような体制を構築するのはハードルの高い取り組みであることに違いない。
機械学習のような従来のAIも、生成AIも、活用のポイントは主に3つある。1つ目は、データやAIの活用に不慣れでコーディングをしない社員にも、使いこなせるツールを提供すること。2つ目は、データ分析や生成AIに関する多種多様な技術や機能を単一のプラットフォームで利用できるようにすること。なおプラットフォームは、新しい技術をいち早く取り入れるためにも役に立つ。3つ目は、生成AIを含む様々なAIの開発や利活用の取り組みを全社的に拡大しつつ、その取り組みを一元的に管理、ガバナンスできることである。
【画像をクリックすると拡大します】
プラットフォームでLLMなどAI新技術の活用を促進

Dataikuは、データ分析や生成AIの民主化を妨げる、上記の課題を解決するプラットフォームである。アプリケーション画面のクリック操作だけでデータ分析やAI活用ができる。ただし、データサイエンティストなどの専門家がフルコードで分析できる環境も用意している。「こうした環境により、組織内のすべての人がデータ分析の共同作業に参加できるようになります」(松島氏)。
単一のプラットフォーム上で、データの取り込みやデータ準備、可視化、分析、機械学習/AIモデルの開発、モデルの管理や監視、GPTなど複数の大規模言語モデル(LLM:Large Language Models)の利用や管理など、データ活用にかかわる一連の工程の操作を行える。また、次々と登場するLLMなどのAI新技術をモジュールとして追加・更新し、複数の選択肢から選べる仕様とした。「企業ユーザーは作業効率に加えて、システム投資の効率も高められます」(松島氏)。
簡単なクリック操作で分析

実際にユーザーの使い勝手はどうなのか。遊園地の来場者が回答したレビューの文字情報データから、満足度の評価や改善点を分析するユースケースを例にして紹介しよう。Dataikuのアプリケーションを開くと「データ準備→ワードクラウド、LLM→機械学習」といった、データ分析作業の一連の工程を一覧できる画面が表示される。画面の右側には、データの整形や変換、分析を行う各種の手法が「レシピ」と呼ばれるアイコンの形で整理されている。
最初に行う「データ準備」の工程では、分析のための前処理としてデータを整形する。クリック操作だけで作業を進められる「ビジュアルレシピ」が用意されており、その中から「準備」をクリックすると、データの項目、内容が表形式で表示される。次に、文字列や数値の変換など、実行したい整形処理を「プロセッサー」と呼ばれる約100種類の機能から選択する。ここでは生成AIの機能を使い、例えば日本語のテキストデータを対象に「レビュー列の文字数を出して」と、言葉(プロンプト)で指示を出して処理することもできる。
続く分析では、「ワードクラウド」という工程において形態素解析で文章から単語を抜き出した。頻度の高い単語を大きくコラージュしたデザイン画面で表示され、データの内容を要約した傾向を把握できる。例えば、「待たされた」「行列が長い」といった単語から特徴を把握できる。「簡単なクリック操作で作業を進められることで、分析の思考の流れが止まらず効率も上がります」(松島氏)。
【画像をクリックすると拡大します】
LLMごとに使用コストを予測

次の「LLM」の工程では、OpenAIなどのサードパーティーが提供する多くのLLMサービスから選択できる。用途や精度などでLLMを比較し、プロンプトや決められたタスクで指示した処理を実行する。例えば、来場者の英語コメントから感情分析を行う場合は「不満を抽出して、箇条書きにして、日本語にして」などと伝える。その結果として、来場者の感情を「興奮した」「がっかりした」など一言の感情で表現した列やコメントを要約した列、不満点だけを箇条書きで抽出した列などを、元データの表に加える。「LLMごとに費用を把握しながら利用できるので、思わぬコスト増を避けながら安心して使用できます」(松島氏)。
さらにこの結果を「機械学習」によって深掘りできる。例えばこの例では、来場者の5段階評価と、その他のデータ列(特徴量)がどう影響するのか関係性をモデル化している。Dataikuではモデルの説明性を解析することができ、ビジュアル化された画面では、来場者の最終評価にどの回答項目がどう影響しているかを視覚的に明らかにする。また、来場者のレビューの文字数と内容の関係性を分析すると、「良い評価は、レビューの文字数が少ない」などの結果が出力される。同様に、「5段階評価において、ポジティブなレビューが高い評価に影響を及ぼすより、ネガティブなレビューが低い評価により強く影響を与えている」といったインサイトが得られる分析も可能だ。ネガティブな評価を回避する施策につなげられる。
Dataikuの特徴は、簡単な操作で分かりやすいデータ分析が可能であることだ。「大規模導入されているユニリーバ様では社内のデータ分析数が増え、特にターゲティング広告の精度向上による大幅な広告費削減の効果があったと聞いています」(松島氏)。さらに、データ活用やスキルアップにより社員の業務満足度が向上し、離職率の低下につながった企業もあるという。

