概要
MMLU(大規模マルチタスク言語理解測定)は、大規模言語モデル(LLM)の汎用的な知能を評価するために用いられる、最も広く認知されているベンチマークの一つです。狭い範囲のテストとは異なり、MMLUはSTEM分野、人文科学、社会科学など、57もの異なる分野にわたる問題解決能力を評価します。
主な機能
- 幅広いドメインカバレッジ: 数学、歴史、コンピュータ科学、法律、医学など、多様な分野における知識をテストする。
- ゼロショットおよび少数ショット評価: 研究者は、特定のタスクに関する事前のトレーニングなしに、または提供された少数の例を用いて、モデルの性能を測定できます。
- 標準化された比較: 異なるモデルアーキテクチャ(例:GPT-4、Claude、Llama)の推論能力を比較するための、一貫性のある指標を提供する。
最適な用途
MMLUは主に、モデルの世界観や言語推論能力を厳密かつ学術的なレベルで評価する必要のあるAI研究者、開発者、モデル評価者によって利用されています。
制限事項と考慮事項
MMLUは一般知識の強力な指標ではありますが、主に多肢選択式のテストです。そのため、創造的なコンテンツの生成、複雑な指示への対応、長期的な会話の一貫性の維持といったモデルの能力を完全に捉えることはできない可能性があります。さらに、モデルがより多くのWebデータで学習されるにつれて、ベンチマーク問題が学習セットに含まれることでデータ汚染のリスクが生じます。
免責事項:ベンチマーク指標および評価方法は変更される可能性があります。最新のリーダーボードおよびドキュメントについては、Papers with Codeの公式リポジトリまたは学術リポジトリをご確認ください。
情報が不完全または古い可能性があります。詳細は公式サイトでご確認ください。
終わり