MMLU

88 閲覧数

概要

MMLU（大規模マルチタスク言語理解測定）は、大規模言語モデル（LLM）の汎用的な知能を評価するために用いられる、最も広く認知されているベンチマークの一つです。狭い範囲のテストとは異なり、MMLUはSTEM分野、人文科学、社会科学など、57もの異なる分野にわたる問題解決能力を評価します。

主な機能

幅広いドメインカバレッジ： 数学、歴史、コンピュータ科学、法律、医学など、多様な分野における知識をテストする。
ゼロショットおよび少数ショット評価： 研究者は、特定のタスクに関する事前のトレーニングなしに、または提供された少数の例を用いて、モデルの性能を測定できます。
標準化された比較: 異なるモデルアーキテクチャ（例：GPT-4、Claude、Llama）の推論能力を比較するための、一貫性のある指標を提供する。

最適な用途

MMLUは主に、モデルの世界観や言語推論能力を厳密かつ学術的なレベルで評価する必要のあるAI研究者、開発者、モデル評価者によって利用されています。

制限事項と考慮事項

MMLUは一般知識の強力な指標ではありますが、主に多肢選択式のテストです。そのため、創造的なコンテンツの生成、複雑な指示への対応、長期的な会話の一貫性の維持といったモデルの能力を完全に捉えることはできない可能性があります。さらに、モデルがより多くのWebデータで学習されるにつれて、ベンチマーク問題が学習セットに含まれることでデータ汚染のリスクが生じます。

免責事項：ベンチマーク指標および評価方法は変更される可能性があります。最新のリーダーボードおよびドキュメントについては、Papers with Codeの公式リポジトリまたは学術リポジトリをご確認ください。

情報が不完全または古い可能性があります。詳細は公式サイトでご確認ください。

終わり

AIベンチマーク LLM評価機械学習モデルテスト自然言語処理

投稿先: AIモデルのベンチマーク

2023年10月29日

0

著作権表示: 弊社のオリジナル記事は管理者 2023年10月29日、合計1480語。

複製に関する注記：コンテンツは第三者から提供され、AIによる処理が行われる場合があります。正確性を保証するものではありません。すべての商標はそれぞれの所有者に帰属します。

C-Eval

次

コメント（コメントなし）