PDFを正確に読み取れないAI 理解の精度を高める「前処理」が重要

生成AIにPDFを読み込ませて、中身をテキスト化したり概要をまとめたりしているビジネスパーソンは多いだろう。だが「AIがPDFの内容を正しく把握できず、生成データに間違いが多い」という事態は珍しくない。アドビでPDF関連製品のコンサルタントを務める笹木涼氏は、LLMを使った解析では、WebやWordなどのオフィス文書とPDFとの間には「大きな差がある」と警鐘を鳴らし、PDFの生みの親であるアドビ独自のアプローチを解説した。

アドビ株式会社

デジタルメディア事業統括本部営業戦略本部

ソリューションセールス製品戦略部

Senior Solution Consultant Document Cloud

笹木涼氏

PDFがAIにとって厄介な存在となっている理由は「その根本的なデータ形式の違いにあります」と笹木氏は指摘する。WebデータやWord、Excel、PowerPointなどのオフィスデータは、XMLベースのマークアップ言語で記録されている。タグで囲まれた論理構造を持ち、人が見ても比較的容易に内容を把握できる。

一方、PDFは文字コードと座標位置、色指定、フォント情報といった描画命令の羅列で構成するベクター描画モデルになっている。笹木氏は「マークアップ言語を理解できるLLMも、描画命令は理解できません。このため、AIによる可読性がWebやオフィス文書は高くPDFは低くなります」と解説する。

データ処理量についての制約も大きい。AIは取り込んだデータをコンテキストという処理単位に分けて推論しているが、PDFはWebデータやオフィス文書と比較して数十倍のデータ量となる。このため「わずか数ページの文書でもAIの処理範囲を超え、前半の内容や重要な内容が押し出されて消滅してしまいます」（笹木氏）。

ChatGPTやGemini、Copilotなどの生成AIは、どうやってPDFを読んでいるのか。実は、PDFのデータをそのままLLMに渡すのではなく、いったんテキストや構造情報をプログラミング言語のMarkdownなどの中間表現に変換する“前処理”を実行している。「各社ともこの前処理の仕様を詳細には公表していませんが、何らかの抽出・解析・変換処理を実行していると考えられます」と笹木氏は分析する。

このPDFの前処理には厄介な点がある。PDFは、ストレージ上では音楽や動画などと同様に非構造化データでありながら、内部には表計算データやRDBのようなコンピュータが処理するための厳密なスキーマ構造とは異なる、人が文書として理解するためのレイアウトや論理構造を持っているのだ。

PDF文書で一般的な2段組みの読みの順、大見出しと小見出しの階層関係、本文と注釈の対応関係などは、人間の目ならば直感的に把握できる。だが、AIはこれらを人間のようには把握できない。そのため「段組みの行を横に結合して意味不明な要約になったり、見出しと本文の関係性が崩れて解釈を誤ったり、注釈やグラフの数値が正しく結びつかなかったりする」（笹木氏）ことが起こる。

PDFの生みの親であるアドビは、この課題に独自技術で対処している。「Adobe Acrobat」に搭載したAI機能では、まずPDFから見出しや本文、表、注釈などの要素を抽出し、読み順や階層の構造情報を付与する。さらにAI処理に不要な描画命令を除去し、情報を圧縮してLLMに送る――という4段階のプロセスを経ているのだ。

この独自技術によって、他社AIとどの程度の差が出るのだろう。笹木氏は「Acrobat Studio」「ChatGPT」「Gemini」「Copilot」の4製品で検証を実施した。サンプルとしたのは厚生労働省が2023～2025年に公開したPDF約1300ページで、働き方や社会問題など多様なテーマを扱う図表も豊富な資料である。これらを、①構造の保持、②具体情報の保持、③参照先情報の抽出――の3点を確認ポイントとした30個の質問で比較した。

①構造の保持では、令和7年版の章立てから「若者に何を理解してほしい構成かを3点列挙して」と指示した。Acrobat Studioは章・節・下位項目まで階層を正確に復元したが、他の3製品は章レベルの情報にとどまり、節以下は要約的な説明に終始した。笹木氏は「Acrobat StudioもバックエンドはOpenAIのLLMを使用しており、差はLLMではなく前処理に起因しています」との分析を披露した。

②具体情報の保持では、「地域共生社会」の定義に近い箇所の抽出を指示した。Acrobat Studioは原文の記述をほぼそのまま維持し、脚色や外部情報による書き換えが一切なかった。しかし、他の3製品は「内容を分かりやすく書いているものを要約する傾向にあり、必ずしも原文に忠実ではなく、情報が不十分な箇所も確認された」という。

③参照先情報の抽出では、自殺の現状に関する数値データの特定を指示した。Acrobat Studioは「何人」「何パーセント」といった具体的データ33個を抽出できた。これに対しCopilotは約12個、Geminiは数個で、ChatGPTは「テキスト抽出では拾えない形式でした」と回答したという。笹木氏は「参照先の情報はどうしても途切れやすい。図表内の数値を正確に拾えるかは、構造情報の取得精度に直結するわけです」と結論付けた。

「誤解しないでいただきたいのですが、これらはあくまでそれぞれのAIモデルがPDFの情報をどの程度まで把握できるか、という話です」と笹木氏は前置きし、ChatGPT、Gemini、Copilotについては「Webやオフィス文書の処理に非常に高い性能を発揮し、内容を噛み砕いてわかりやすく伝えるアドバイザー的な役割に強みがあります」と評価した。一方で、PDFの情報を渡す場合は要約的な回答になりやすく、参照先が不正確な場合もあると指摘する。

一方、Acrobat StudioはPDF原文の記述を忠実に維持し、数値を正確に抽出する「文書情報の保全」に重きを置いた設計思想を持つ。「PDFの情報を正確に把握したい場合や、数値を確認したい場合はAcrobat Studioが適しています」と笹木氏は強調する。

Acrobat Studioの前処理機能は「Adobe PDF Extract API」として外部にも提供されている。PDFの見た目を維持したままで論理構造を軽量のデータ交換フォーマットであるJSONに変換できる。

笹木氏は「Markdownでは構造情報が欠けることもあるが、JSONなら漏れなく取得できます。前処理だけ利用したいエンジニアはぜひ試してください」と呼びかけ、そのうえで「どのAIを使うのが正解かという話ではなく、目的によって使い分けるのが適切です」と講演を締めくくった。

アドビ株式会社

https://www.adobe.com/jp/

PDFを正確に読み取れないAI理解の精度を高める「前処理」が重要

LLMはPDFの文書構造を理解できない

「前処理」の品質がアウトプットの質を決める

4製品の比較検証で明らかになった差

目的によって使い分けるのが最適解