NASAがAI活用検索で科学を加速

米国航空宇宙局(NASA)のように多くのデータを生成・収集する場合、研究プロジェクトに適したデータセットを見つけることは問題になり得る。

7つのオペレーションセンター、9つの研究施設、18,000人以上のスタッフを擁するNASAは、常に圧倒的な量のデータを生成し、天体物理学、太陽物理学、生物科学、物理科学、地球科学、惑星科学という5つの専門分野にまたがる30以上の科学データリポジトリに保存している。全体では、128のデータソースにわたって、88,000以上のデータセットと715,000以上のドキュメントが保管されている。地球科学データだけでも、2025年までに250ペタバイトに達すると予想されている。このような複雑さを考慮すると、科学者はそのすべてをナビゲートするために、単なる専門知識以上のものを必要とする。

「研究者は、どのリポジトリに行けばいいのか、そのリポジトリには何があるのかを知る必要があります」と、アラバマ州ハンツビルにあるマーシャル宇宙飛行センターのNASAデータサイエンティスト、ケイリン・バグビーは言う。「科学リテラシーとデータリテラシーの両方が必要だ」。

2019年、NASAの科学ミッション本部(SMD)は、科学者との一連のインタビューに基づいた報告書を発表し、科学者たちが必要なデータを見つけるための一元的な検索機能を必要としていることを明らかにした。SMDの使命は、米国の科学コミュニティと協力し、科学研究を支援し、地球周回軌道、太陽系、そしてそれ以遠の調査のために航空機、気球、宇宙飛行プログラムを利用することである。SMDは、科学者や研究者がSMDのデータにアクセスできるようにすることがSMDの目的の基本であることを認識し、公的資金による科学研究の透明性、包括性、アクセス性、再現性を高めるため、報告書の結果としてオープンソース・サイエンス・イニシアティブ(OSSI)を開発した。OSSIの使命は、ソフトウェア、データ、知識(アルゴリズム、論文、文書、付随情報を含む)を科学的プロセスのできるだけ早い段階でオープンに共有することである。

「これは本当に科学者や科学コミュニティから生まれたもので、学際的な科学を可能にするというSMDの広範な優先事項とも一致しています」とバグビーは言う。「そこで新しい発見がなされるのです」とも言う。

その使命を促進するために、現在、科学者の手元に膨大な量のデータを置くために、ニューラルネットと生成AIの組み合わせに目を向けている。

秩序を取り戻す

OSSIの重要な要素は、サイエンス・ディスカバリー・エンジン(SDE)である。これは、NASAのすべてのオープン・サイエンス・データと情報を一元的に検索・発見する機能で、Sinequaのエンタープライズ検索プラットフォームによって提供される。

「SDEが作成されるまで、NASAのオープンデータやドキュメントを検索するために単一の場所に行くことはできなかった。今では、我々のオープン・サイエンス・データの単一の検索機能として機能している」とバグビーは言う。

ニューヨークを拠点とするSinequaは、20年以上前にセマンティック検索エンジンでスタートし、AIと大規模言語モデル(LLM)を活用して文脈に沿った検索情報を提供することに注力している。その後、マイクロソフトのAzure OpenAI Serviceと独自のニューラル検索機能を統合し、プラットフォームを強化している。

具体的には、Sinequaのニューラル検索機能は、キーワード検索とベクトル検索を組み合わせて情報を発見し、GPTは収集した情報を迅速に消化可能で再利用可能な形式に要約する。また、科学者が自然言語を使用して、より深い質問をしたり、検索や回答を洗練させたりすることもできる。SDEは約9,000種類の科学用語を理解し、その数はAIが学習するにつれて増えていくと予想される。

バグビーと彼女の学際的なチームは、データ・スチュワードシップと情報学の専門知識を持つ科学者、開発者、AIとMLの専門家を含み、利害関係者と緊密に協力して彼らのニーズを理解し、またNASAのCIO室とSinequaと協力して概念実証を構築した。

「彼らは私たちが必要とする環境を整える手助けをしてくれた」と彼女は説明する。「私たちはオープンな機能を持たなければならなかったので、いくつかの特別なアーキテクチャが必要だった。」

バグビーによると、すべてを立ち上げ、稼働させるにあたって彼女のチームが直面した最大の課題のひとつは、NASAのエコシステム全体でコンテンツがいかに分散しているかということだった。彼女のチームは、情報ランドスケープ、データ、メタデータスキーマを理解するのに約1年を費やした。

「コードやGitHubのようなもの、データがどのように開発されたかを説明するアルゴリズム文書など、データに豊かさをもたらす文脈的な情報はすべて、多くのウェブページに分散している。」

立ち上げに向けた準備

バグビーは、データ管理やデータ・スチュワードシップに精通している。彼女は、Data.govやオバマ大統領の気候データイニシアチブのメタデータの質を向上させるために、この分野で歯を食いしばってきた。しかし、SDEに携わることで、優れたキュレーションのワークフロー、つまり原則に基づいて管理されたデータの作成、維持、管理のプロセスの重要性が身にしみた。

「もし過去に戻れるなら、最初からもっと強固なキュレーションワークフローを構築していたでしょう」と彼女は言う。「しかし、本当に望む結果を得るためには、キュレーションのワークフローが必要だった。」

SDEはまだベータ版であるが、バグビーによれば、彼女のチームは今日までに科学者から多くの好意的なフィードバックを得ており、今年後半にはより完全に運用可能なシステムを提供する予定である。すでにチームは、ユーザーが検索を開始する前にトピックでフィルタリングできる新しいユーザーインターフェイスを実装している。

Artificial Intelligence