AIモデルが人間専門家並みに科学文献を統合・引用できることを実証 (In a study, AI model OpenScholar synthesizes scientific research and cites sources as accurately as human experts)

2026-02-04 ワシントン大学(UW)

ワシントン大学(University of Washington)とアレン人工知能研究所(Allen Institute for AI, Ai2)の研究チームは、科学論文の合成と正確な出典引用が可能なAIモデル「OpenScholar」を開発した。このモデルは45 百万件以上の論文データベースを活用し、質問に対して関連文献を検索・統合し、出典付きで要約を生成する。「retrieval-augmented generation(RAG)」技術を用いることで、既存の一般的なAIモデルが抱える誤情報生成(ハルシネーション)の課題を大きく改善している。検証では、OpenScholarの出典引用精度は人間専門家と同等であり、科学者16人による評価では、OpenScholarの回答が専門家執筆回答に優ると評価された割合が約51 %に上った。また、学術ベンチマーク「ScholarQABench」を用いた比較では、OpenScholarは他の最先端モデルを上回る性能を示し、コードやデータ、オンラインデモがオープンソースで公開されている。この成果は、AIを用いた科学研究の効率化と信頼性向上に寄与する重要な一歩となっている。

<関連情報>

検索強化言語モデルを用いた科学文献の統合 Synthesizing scientific literature with retrieval-augmented language models

Akari Asai,Jacqueline He,Rulin Shao,Weijia Shi,Amanpreet Singh,Joseph Chee Chang,Kyle Lo,Luca Soldaini,Sergey Feldman,Mike D’Arcy,David Wadden,Matt Latzke,Jenna Sparks,Jena D. Hwang,Varsha Kishore,Minyang Tian,Pan Ji,Shengyan Liu,Hao Tong,Bohao Wu,Yanyu Xiong,Luke Zettlemoyer,Graham Neubig,Daniel S. Weld,… Hannaneh Hajishirzi
Nature  Published:04 February 2026
DOI:https://doi.org/10.1038/s41586-025-10072-4

AIモデルが人間専門家並みに科学文献を統合・引用できることを実証 (In a study, AI model OpenScholar synthesizes scientific research and cites sources as accurately as human experts)

Abstract

Scientific progress depends on the ability of researchers to synthesize the growing body of literature. Can large language models (LLMs) assist scientists in this task? Here we introduce OpenScholar, a specialized retrieval-augmented language model (LM)1 that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience and biomedicine. Despite being a smaller open model, OpenScholar-8B outperforms GPT-4o by 6.1% and PaperQA2 by 5.5% in correctness on a challenging multi-paper synthesis task from the new ScholarQABench. Although GPT-4o hallucinates citations 78–90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar’s data store, retriever and self-feedback inference loop improve off-the-shelf LMs: for instance, OpenScholar-GPT-4o improves the correctness of GPT-4o by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT-4o responses over expert-written ones 51% and 70% of the time, respectively, compared with 32% for GPT-4o. We open-source all artefacts, including our code, models, data store, datasets and a public demo.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました