ONLINE SEMINAR Review ITインフラSummit 2024 Summer 生成AI活用を支えるIT基盤を探る

ONLINE SEMINAR Review ITインフラSummit 2024 Summer 生成AI活用を支えるIT基盤を探る

クラウド基盤最適化Forum

サイオステクノロジー

AI活用の要:データの信頼性向上に寄与するIT基盤とは

サイオステクノロジー
BC&CSサービスライン
国井 駿

セゾンテクノロジー
マーケティング部
部長
川田 容志

生成AIの利用が進む中、社内データを生成AIに活用するRAG(検索拡張生成)構成のAIシステムを構築する手法が注目を集めている。しかし、精度の高い回答を得るためには、データの信頼性や可用性を高める仕組みが不可欠である。セゾンテクノロジーの社内事例を基に、基幹システムのデータを簡単に収集してRAGで活用する道具立て(ETL/iPaaS)と、データの源泉となる基幹システムの安定稼働を支援するHA(高可用性)クラスタソフトウエアを紹介する。

生成AIには社内データを活用するためのデータ基盤が必要

データ分析の民主化が進んでいる。以前は経営企画部門やデータサイエンティストなどの専門人材が社内のデータを分析していた。現在は、業務部門自らが分析するようになった。特に、生成AIによるデータ分析は、人事やマーケティングなど複数の業務領域で、業務の効率化など様々な用途で利用が進んでいる。

セゾンテクノロジー
川田 容志

生成AIを全社で活用する上では、渡したデータを基に回答を生成するRAG(検索拡張生成)構成のシステムが必要になる。また、RAG構成においては、情報ソースとなる業務システムから信頼できるデータを取得する仕組みが重要である。「基幹システムからデータをどのように持ってくるかがポイントになります」と、セゾンテクノロジーの川田容志氏は指摘する。

セゾンテクノロジーは、社内に「データドリブンプラットフォーム」と呼ぶデータ基盤を構築済みである。基幹システムのデータを、まずはデータレイク(クラウドストレージ)にため、DWH(データウエアハウス)で管理し、目的別のデータマートを構築して可視化している。このデータ基盤を、BI(ビジネスインテリジェンス)用途や生成AI用途で使っている。

生成AIの具体的な利用シーンは、将来の予測である。例えば、「特定の社員が今後3カ月間でどれだけ残業するかを予測する」といったユースケースがある。「過去の実績を可視化するだけならBIツールでもできます。生成AIを使うことで未来の予測も容易になりました」と川田氏は言う。

残業時間を予測するユースケースでは、データソースとして、人事情報(人事システム)、勤怠情報(勤怠システム)、進捗情報(プロジェクト管理システム)、就業規則(人事システム)などを利用する。システム間でデータをやり取りするデータ連携ツールとして、ETL(抽出/加工/登録)ツールやiPaaS(クラウド型のデータ統合サービス)を使う。

生成AIで活用しやすい形でデータを整備する

「AIを活用する上では、まずは生成AIに渡すデータの品質が重要です」と川田氏は説く。生成AIの中核を成す大規模言語モデル(LLM)は、DWHに置いてある正規化済みのデータを理解できないので、LLMで使えるように加工したデータをデータマートに置く必要があるという。これに加えて、「どのテーブルに何のデータがあるのか」をカタログ化することも大切である。

例えば、LLMにテーブル形式のデータ(複数の項目を持つ複数行のデータ)を渡したい場合、リレーショナルデータベース(RDB)のように複数のテーブル(部門テーブル、社員情報テーブル、勤務情報テーブルなど)に分かれたものは相性が悪い。

これらから必要な項目を抽出して1つのテーブルにまとめることで、生成AIでも扱いやすくなる。さらに、テーブル名と項目名(列名)だけでなく、テーブル名の説明や項目名の説明も付与しておくことで、どのテーブルにどんなデータが含まれているのかが分かる。これにより、生成AIで扱いやすくなる。

また、「どのようなデータを1つのテーブルにまとめておくべきか」については、生成AIの利用状況を分析して可視化することで明らかになるという。生成AIに対する問い合わせの内容や、検索したキーワードなどから、どんな項目を含めておけばいいのかが分かる。

利用者のリテラシーの向上も重要である。生成AIのガイドラインを整備してシェアしたり、プロンプトの便利な使い方をシェアしたり、全社向けのeラーニングを実施したりする。セゾンテクノロジーも、eラーニングは全社必修実習を40時間以上実施した。これらが実を結び、2023年6月にリリースしてから半年後の2023年12月時点で、利用量は開始当初の3.8倍に増えた。

  • 1
  • 2

▲PageTop

CONTENTS