
日本テラデータ
2023/12/27
そもそも生成AIとは何か? 今までのAI/MLと何が異なるのか? ガートナーによると、生成AIとは「成果物についてデータから学習し、オリジナルと類似性はあるもののそのまま繰り返すことのない、革新的なアウトプットを新たに生み出す」AIであると解説している。
従来のAI/MLは、明確な回答と関連するデータを学習させることで、データを体系化・知識化する。そして、それを基に予測したり、作業を自動化させるといったことを行う。他方、生成AIは、データをAI自らが学習し、そのデータのパターンや関係性を学習し、リクエストに応じて、その学習結果からオリジナルのコンテンツを作成することができる。
では、どのように生成AIをビジネスに活用できるのか? マッキンゼーの調査によると、16のビジネス機能において生成AIが生み出す潜在的経済価値は、実に4.4兆ドルにのぼる。かつ、4.4兆ドルの75%をカバーするのが、16のうち6つのビジネス機能、すなわち「セールス、マーケティング、製品・研究開発、顧客対応、社内および製品開発のソフトウエアエンジニアリング」であるという。日本テラデータ 代表取締役社長 高橋 倫二氏は「4.4兆ドルといえば、昨年の日本の名目GDPを上回る途方もない数字だが、これら6つのビジネス機能での活用が経済的価値を生むのは、確かだろう」と解説する。
しかし一方で、生成AI活用には様々な課題が存在することも指摘する。大きな課題の一つがデータだ。年々生み出されるデータ量は増加し続けている。アクセンチュアの調査によると、2025年には180ZB(ゼタバイト)のデータが生み出され、そのうち30%が合成データになるという。「データのサイロ化が進み、使っているデータへの信頼性が揺らぐ」と高橋氏は警告する。
Teradataがフォーブスと世界のエグゼクティブ向けに行った調査では、3人に1人が「データセキュリティ、プライバシー、コンプライアンス確保」が、データに関する喫緊の課題であると回答した。さらに、多種多様で大量のデータの管理や、サイロ化したデータの統合、データ品質の確保などが課題として挙げられる。「生成AIはビジネスの変革を推進する救世主になるだろう。しかし、そのためにはデータ整備は必要不可欠」(高橋氏)であるといえよう。
データ整備は並行して進めるとしよう。しかし、そもそもビジネスにおいて、生成AIを具体的にどのように活用できるのだろうか。今注目されている生成AIは、いわゆる大規模言語モデルによるAIだ。高度な言語能力を持ち、汎用AI的にふるまい、活用されることが期待されている。だが、これには大量のデータと計算量が必要となり、結果莫大なコストが生じる。日本テラデータ プリンシパルデータサイエンティスト 森 浩太氏は「固有のタスクに適合する、特化型の生成AIを構築することがコスト的には現実的」だと指摘する。ユースケースとしては、顧客体験を改善させる文書要約や機械翻訳、文書作成を支援する文書生成、感情分析やトピック抽出、プログラミングを支援するコード生成などがあげられる。
特化型の生成AIとの付き合い方として、3つの方法がある。1つ目は、生成AIをサービスとして利用する方法。様々なサービス、アプリケーションがリリースされている。例えばChatGPTによるチャットボット、DALL.Eによる画像生成などがあげられる。
2つ目は、生成AIと企業固有データをつなぐ方法。これは取得拡張生成(RAG)といわれる技術だ。生成AIはトレーニングした時点までのデータしか使用していない。また、汎用的であればあるほど一般的な公開データでトレーニングされている。つまり、最新情報が反映されておらず、私的情報が欠如している。そこで生成AIが回答する際に参照する知識ベース(文脈情報)を提供するのがRAGだ。例えば、お勧めの製品情報を返信するチャットボットに、現在売れている製品、欠品していない製品の情報を文脈情報として組み込む、といった具合である。
そして、3つ目が独自の生成AIを開発する方法。最近はプロンプト工学にも注目が集まっている。これは汎用的な生成AIサービスによって適切な処理を実行させ、精度の高い回答を作成させるテクニックだ。しかし、独自の生成AIモデルを開発した場合と同等の精度を出すことは難しい。高度な生成AI利用を進めるのであれば、独自のモデルを開発する選択肢が浮上する。「誰もが生成AIサービスを活用する遠くない将来、企業やビジネスの競争力を強化し、差別化するためには、目的別に特化型の生成AIを独自に開発しなければならないだろう」と森氏は予測する。
特化型の生成AIモデルを開発し、運用する生成AIパイプラインには、大きく4つのステップがある。(1) 学習用データセットを準備、(2) 生成AIモデルの開発、(3) 学習済みモデルの本番環境へのエクスポート/インポート、(4) モデルおよび実データを活用した本番運用、の4つだ。「生成AIを活用するためのデータ分析基盤としてTeradata VantageCloudは最適なクラウドサービス」と、森氏は紹介する。
Teradata VantageCloudは、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud、VMware、オンプレミス環境で利用可能なマルチ/ハイブリッドクラウドデータ分析基盤だ。様々なデータソースのデータを論理的に統合管理し、超並列処理技術とIn-Database処理で高速で学習用データセットを準備できる。さらにトレーニングしたモデルをインポートし、In-Database処理でAI/MLモデルを運用可能だ。
生成AIのモデル開発は、様々なサードパーティーツールで可能だ。このイベントでは、Teradataのパートナー企業であるAWSが、基盤モデルを使用して生成系 AI アプリケーションを構築できるAmazon Bedrockの活用方法について紹介した。Azure OpenAI Serviceも一つの候補ツールだろう。Teradata VantageCloudは、AWS、Azureいずれのクラウド環境でも利用できる。生成AI以外の高度なアナリティクス機能も用意。これら機能群はClearScape Analyticsという名称で提供する。
サイロ化したデータを論理的に一元化し、生成AIを含む様々なアナリティクスを大規模に本番運用可能なTeradata VantageCloud。先のデータに関する課題を解決し、生成AIをビジネスで活用するために有効なツールであるといえよう。「超並列処理アーキテクチャによる高速処理は、大規模なアナリティクスを圧倒的なTCOの低さで実行することを可能とする。AI/ML活用においては、日本は圧倒的にデータサイエンティストが足りていない。海外では1社に100人、1000人といるのに、日本では大企業でも数十人いればよい方。VantageCloudの高速処理は、データサイエンティストの業務を効率化し、生産性の向上にも貢献できるだろう」と高橋氏は日本特有の課題への貢献についても解説する。
Teradata VantageCloudの高速処理性能は実際に高く評価されているようだ。事例講演で登壇した、セキュリティ監視サービスを提供するラック 営業統括部ストラテジックパートナー営業部 部長 土屋 和英氏は、日々十数億件もの監視ログを分析するためのデータ基盤としてTeradata VantageCloudを採用した事例を紹介。高速でデータを処理できる性能を高く評価した。今後はTeradata VantageCloudのAI/ML関連の機能を活用して、より高度なサイバー攻撃対応を実現していきたいと展望を述べている。