AMEDデータ利活用プラットフォーム「CANNDs」

国立研究開発法人日本医療研究開発機構（AMED）は2024年3月から、健康・医療研究で生み出されたデータを提供するAMEDデータ利活用プラットフォーム（呼称：CANNDs（Controlled shAring of geNome and cliNical Datasets）＝キャンディーズ）の運用を開始した。医薬品や医療機器の開発、疾病予防などを手掛ける第三者に対して、まずはゲノム関連データを提供することで、データを利活用した新たな研究・開発を促す狙いがある。

データ利活用の“障壁”を下げてプレリサーチを支援

健康・医療分野の研究では、自組織内にあるデータセットでは数が不足していたり、補完するデータが必要な場合、他の研究機関にデータ提供を依頼したり共同研究を提案したりすることになる。だが、現時点では、どの研究機関で誰がどのようなデータを蓄積しているかをまとめて効率的に知るのは容易ではない。また、データの提供を要望するに当たって研究計画を提示しなければならないことも少なくないが、実際にデータにあたってみなければ研究計画を立てることも難しい場合もある。小林氏は、「研究者、研究機関や企業などが、AMED研究事業から生み出されたデータを利活用できるようにするため、複数のデータベースを連携し、横断検索やデータを扱う環境を整備することがCANNDsの役割です」と言う。

日本医療研究開発機構（AMED）　
健康・医療研究開発データ統合利活用プラットフォーム事業　プログラムスーパーバイザー
小林憲明氏

これまでAMEDでは、支援した個々の研究で得られたデータの利活用を促進するため、研究開発データ利活用カタログを整備・公開してきている。これに加え、CANNDsは健康・医療分野におけるデータ連携の基盤として、AMED研究から生み出されたデータの利活用を可能とする場を目指し、現在までに、3大バイオバンクの全ゲノムデータ解析データのメタデータを用いた横断検索とプレリサーチからデータの処理までワンストップで実行可能なサービスを提供している。

CANNDsのシステム概念図を図1に示す。クラウド上に構築された連携基盤が用意されており、利用者はあらかじめ利用申請した上で、学術認証フェデレーション（学認）の認証システムを用いることでアクセスできる。

AMEDデータ利活用プラットフォーム（CANNDs）連携基盤　データ利活用機能　ゲノムデータ利活用機能　データ管理　運用管理　【連携拠点】国立遺伝学研究所　国立がん研究センター　国立国際医療研究センター　東京大学医科学研究所　東北大学東北メディカル・メガバンク機構

図1

［画像のクリックで拡大表示］

個人情報を含まないメタデータ横断検索や集団の層別アレル頻度などについては簡易な登録で利用でき、研究計画の立案などに役立てることができる。また、遺伝型インピュテーションや全ゲノムデータの処理については、データ利用審査による承認が必要となるが、連携基盤からワンストップで利用できる（図2）。

提供機能の利用フロー　連携基盤ログイン　ダッシュボード　【データ調査に基づく研究計画の立案】メタデータ横断検索　層別アレル頻度　柔軟な処理環境（Docker）　【研究計画に基づいた利活用個人データ（全ゲノムデータ）の処理】連携拠点システムログイン　遺伝型インピュテーション　visiting型計算環境　柔軟な処理環境（Singularity）

図2

［画像のクリックで拡大表示］

「アカデミアや企業の方々が広く利用できるサービスの提供を、AMEDは目指しています。このため、ユーザーインターフェースは、できるだけ手間がかからないように利用できるものにして敷居を下げ、どのようなデータがあるか、自分の研究に使えるかどうかを把握できる仕組みを整備しました。最終的には各バイオバンク等とデータ利用に関する契約を結ぶことで、ゲノム配列等のデータは利用出来ることになりますが、個人情報を含まないデータに関しては、登録さえしてもらえば、プレリサーチを目的とした検索、アレル変異の統計的な解析結果までは見られる環境を用意しています」（小林氏）という。

2025年2月時点でCANNDsから利用可能なデータは、計2万2955検体の全ゲノムデータである（図3）。全ゲノムデータを保有する連携拠点は、国立遺伝学研究所、国立がん研究センター、国立国際医療センター、東京大学医科学研究所、東北大学東北メディカル・メガバンク機構の5機関。2024年度内には、日本多施設共同コホート研究（J-MICC）の約2000検体と、大規模認知症コホート研究（JPSC-AD）の約4000検体を追加予定で、合計約2万9000件となる。このデータは、がんや難病に対する創薬などゲノム医療を進めるためのコントロール（対照）群として構築されたが、利活用の方法として、これらに限るものではない。

データベース	検体数
東北メディカル・メガバンク計画（TMM）	7,125
ナショナルセンター・バイオバンクネットワーク（NCBN）	9,830
バイオバンク・ジャパン（BBJ）	6,000
計	22,955

図3

小林氏は、「CANNDsに登録されている全ゲノムデータは、2025年度には3万件近くとなりますが、必ずしも量的に十分とは言えないという意見もあります。しかし、まずは現状持つ質の高いデータの利活用環境整備をアジャイルに取り組むのが先決と考えています」と述べる。

使いやすさという点では、利用者の研究計画の秘匿性にも配慮した。現在、3つの大規模バイオバンクから提供された全ゲノム配列は5つの拠点に分散配置されている。これは、たとえば製薬事業者がゲノムデータを分析する場合、分析のプロトコルや使用するデータセットが特定されれば、研究開発の内容が推測されるリスクがある。5拠点に対してフラットにアクセスする環境を整備することで、こうした事態を回避する狙いがある。

研究成果の価値を2次利用促進でさらに高める

CANNDsが急ピッチで整備された背景には、研究に必要な臨床情報を得ることが困難な研究者のニーズを満たす狙いとともに、臨床研究や日々の診療で得られる膨大なデータが有効活用されていない現状に対する強い危機感があった。

「個人から得られた臨床データを集約し、統計的な分析を行うことにより、当初の直接的目的ではない利活用、例えば薬の副作用の検知や、新たな薬を開発するための重要な情報源とすることが二次利用ですが、二次利用にはまだ課題も多く、十分進んでいるとは言えません」（小林氏）と指摘する。AMEDの健康・医療研究に対する研究費支援は年間2000-3000億円に及ぶが、そうした研究から生まれる大量のデータは、2次利用のリソースとしての期待が高い半面、有効に活用できていないという問題意識があった。

そこで国やAMEDは、出発点として社会的な要請が高かったゲノムデータに着目した。「スモールスタートかもしれませんが、個人情報保護の視点ではある意味で最も難しいテーマから取り組んだと考えています」（小林氏）。

ゲノム情報については国が支援して全ゲノム配列のデータ集積を進めてきた。全ゲノム配列自体が医療情報として極めて重要性が高いにもかかわらず、データの可用性が十分に確保されていなかったことが背景にある。当初はデータの2次利用については最優先課題とは見なされていなかったが、結果的には、わが国の医療研究データの2次利用、すなわちデータの多用性を高める取り組みの先頭を切って整備されたことになる。

AMEDが大規模な研究支援を行う中で様々な研究成果が生まれている。こうした研究成果の背景となるデータの所在や内容についても、しっかり管理され、標準化されていることが望ましいが、個々のデータは専門性・個別性が高く、労力をかけないと整備できない。

「ゲノムのデータバンクはこれまで管理母体毎に運営されており、連携運用される事例は稀でした。そのため、研究者がゲノムデータを利用するには、個々のデータベースの管理者に問い合わせる必要がありますが、手間のかかる作業でした。そこで、ゲノム医療研究の推進のため、個人特定性の高い希少疾患ゲノムデータや要配慮に当たる詳細な臨床情報等の「公開できない」データを、産業界も含めて研究利用できる環境を整備してほしいという国の方針が示されたことが、CANNDs構築の発端となりました」（小林氏）

認知度を高め、広く活用につなげたい

CANNDsは、難病やがん、あるいは個別化医療の研究者や診療を目指す臨床医、とくに研究者が主な利用層になると考えられる。しかしAMEDでは、CANNDsの認知が高まり、関心が持たれることで、「私たちが想定していないような活用が増えるのが最も望ましいと考えています」（小林氏）と期待する。小林氏は、「ゲノム情報というのは非常に高い価値があります。他の臨床情報をゲノム情報と組み合わせて考えることで利活用の価値が向上するとともに、AMEDが支援する他の研究データとの組み合わせで、更に着想が広がって新たなイノベーションが起きることを期待しています。CANNDsが目指すデータ利活用基盤は、ウエルビーイングが注目される中、医療だけでなく、衣、食、住様々な産業応用にもつながると考えます。CANNDsはスタートしたばかりであり、機能や収容するデータの拡充を着実に進めています。しっかり運用して、『それだったら使えるんじゃないか』『これができれば』といった声を集めていきたいと思います」と展望を述べる。