AIが法学教授を上回る性能を示した盲検研究(AI Outperforms Law Professors in Blind Study)

2026-06-01 スタンフォード大学

スタンフォード大学ロースクールの研究チームは、AIが法学教育における個別指導(チュータリング)で人間の法学教授を上回る評価を得たと発表した。全米14校から参加した16人の契約法教授が、1年生から寄せられる典型的な40の質問に回答し、同じ質問にGoogle Gemini 2.5 ProとNotebookLMも回答した。その後、回答の作成者を伏せた状態で教授らが比較評価したところ、AIの回答が約75%の割合で「学生にとってより有益」と判断された。さらに、有害と評価された回答の割合はAIが4%未満で、人間教授の約12%を下回った。研究者らは、この結果がAIの高度な法的推論能力を示すものであり、法学教育における24時間利用可能な補助的学習ツールとして有望であると指摘する。一方で、AIは教員を代替するものではなく、教育の質向上や学習機会拡大を支援する存在として位置付けられている。

<関連情報>

法学教授は同僚の回答よりもAIによる回答を好む Law Professors Prefer AI Over Peer Answers

Alejandro Salinas,Carly Frieders,Neel Guha,Sibo Ma,Ralph Anzivino,Ian Ayres,Oren Bar-Gill,Omri Ben-Shahar,Stephen E. Friedman,George S. Geis,Sue S. Guan,Christoph Henkel,Stephanie R. Hoffer,Gregory Klass,Larasz Moody,Sarath Sanga,Keith Sharfman,Justin Simard,Rebecca Stone,David A. Wishnick,Julian Nyarko
Social Science Research Network  Posted: 2 Jun 2026

Abstract

Large language models (LLMs) are increasingly promoted as educational tutors, yet most evaluations focus on domains with a single ground truth. Many disciplines, however, hinge on judgment: reasoning, weighing ambiguity, and reaching defensible conclusions. Law provides a sharp test. We conducted a blinded evaluation of short-answer tutoring in contracts courses with sixteen U.S. law professors. Participants created 40 representative questions, wrote answers, and judged 2,918 anonymized comparisons between human and LLM responses. Professors rated LLMs far higher than their peers (average win rate = 75.33%), with models performing similarly to the best instructor. LLM responses were also rarely flagged as harmful (3.53% vs 12.06% for professors). Preferences for LLM answers were consistent across evaluators and reflected shared professional standards. Our evaluation can be reliably extended to additional models by employing a separate LLM as a judge, rendering expert agreement an effective, scalable method to evaluate AI tutors in judgment-rich domains.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました