AIの文化的文脈理解を測るマルチリンガル・ベンチマーク開発(Beyond translation – making AI multicultural)

ad

2025-06-02 スイス連邦工科大学ローザンヌ校(EPFL)

スイス連邦工科大学ローザンヌ校(EPFL)の研究チームは、AIが言語だけでなく文化的・地域的文脈を理解できるかを評価する多言語ベンチマーク「INCLUDE」を開発しました。従来のベンチマークは英語中心で翻訳に頼ることが多く、文化的偏りや翻訳の不自然さが問題でした。INCLUDEは、44言語・15文字体系にわたる197,000以上の多肢選択式問題を、各地域の学術・専門・職業試験から収集し、ネイティブスピーカーと協力して作成されました。これにより、AIが地域の法律や社会規範、歴史的視点などの明示的・暗黙的な文化的知識をどれだけ理解しているかを評価できます。テストの結果、AIは一般的な世界史よりも地域史の問題で一貫して成績が低く、地域固有の文脈理解に課題があることが示されました。この研究は、AIの多文化対応能力向上に向けた重要な一歩とされています。

<関連情報>

インクルード 地域知識を用いた多言語言語理解の評価 INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
arXiv  Submitted on 29 Nov 2024
DOI:https://doi.org/10.48550/arXiv.2411.19799

AIの文化的文脈理解を測るマルチリンガル・ベンチマーク開発(Beyond translation – making AI multicultural)

Abstract

The performance differential of large language models (LLM) between languages hinders their effective deployment in many regions, inhibiting the potential economic and societal value of generative AI tools in many communities. However, the development of functional LLMs in many languages (\ie, multilingual LLMs) is bottlenecked by the lack of high-quality evaluation resources in languages other than English. Moreover, current practices in multilingual benchmark construction often translate English resources, ignoring the regional and cultural knowledge of the environments in which multilingual systems would be used. In this work, we construct an evaluation suite of 197,243 QA pairs from local exam sources to measure the capabilities of multilingual LLMs in a variety of regional contexts. Our novel resource, INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across 44 written languages that evaluates multilingual LLMs for performance in the actual language environments where they would be deployed.

1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました