ヒトと生成AIの言語知識の比較に基づく言語直観のベンチマーク開発

2026/06/30 NEW

研究成果

言語文化研究院／吉村理一 助教

研究内容・成果　
本研究は、学術英語の授業において生成AIの回答と教材の正答が一致しないという学生からの指摘を出発点とし、「生成AIは英語をどの程度正確に扱えているのか」を明らかにすることを目的としたものである。研究は、（i）生成AIの文法力の実態把握、（ii）評価・改善のためのデータ整備、（iii）教育現場での活用方法の検討、の三点を軸に進めた。

続きを読む

まず、主要な英語構文を対象としたデータを用いて、生成AIと母語話者の文法性判断を比較した。その結果、文法的な文では一定の一致が見られる一方で、非文法的な文や要素移動を伴う構文では判断のずれが目立つことが分かった。次に、複数のモデルを対象とした比較分析を行い、モデルの世代が進んでも改善が見られにくい構文があることを確認し、ベンチマーク（評価用データセット）を公開した。また、AIが苦手とする構文に焦点を当てたカスタムGPTを開発し、授業での実践を通して学習成果の向上を確認した。これらの結果から、生成AIの得意・不得意が具体的に整理されるとともに、教育の中でどのように使えば効果的かについて一定の見通しが得られた。加えて、英語名詞の可算性について通時的・通言語的な分析を行い、その変化を説明する発達段階モデルを提案し、言語学分野にも一石を投じた。

今後の展望
今後は、生成AIの言語能力をより精緻かつ分かりやすく評価するため、AIが苦手とする関係節などの構文差異を踏まえた評価体系の整備と、語彙力を測るデータセットの構築を進め、文法・語彙の両面から総合的に評価可能なベンチマークの確立を目指す。また、第二言語習得研究の観点を取り入れ、学習者誤りの分類データを整備するとともに、生成AIによる誤り認識・自動分類の精度を検証する。さらに、surprisal分析やProbing手法を用いてモデル内部の言語表現を分析し、誤りが内部表現と出力過程のいずれに起因するかを明らかにする。これらの知見を統合し、AIを活用した英語学習支援システムの設計・開発へと展開するとともに、多言語への応用も視野に入れた教育研究として発展させていく。　

▽画像をクリックして拡大