MMLU

84 浏览量

概述

MMLU（大规模多任务语言理解能力测试）是评估大型语言模型（LLM）通用智能最广泛认可的基准测试之一。与范围较窄的测试不同，MMLU 评估模型解决涵盖 STEM、人文、社会科学等 57 个不同学科问题的能力。

MMLU 主要供人工智能研究人员、开发人员和模型评估人员使用，他们需要对模型的世界知识和语言推理能力进行严格的学术级评估。

虽然MMLU是衡量通用知识水平的有效指标，但它本质上是一种多项选择题测试。这意味着它可能无法全面反映模型生成创意内容、理解复杂指令或保持长期对话连贯性的能力。此外，随着模型使用更多网络数据进行训练，基准测试题出现在训练集中，存在数据污染的风险。

免责声明：基准指标和评估方法可能会有所变化。请在 Papers with Code 官方平台或学术存储库中查看最新的排行榜和文档。

信息可能不完整或已过时；请在官方网站上确认详细信息。

结尾

2023年10月29日

0

复制说明：内容可能来源于第三方，并经人工智能辅助处理。我们不保证其准确性。所有商标均归其各自所有者所有。

C-Eval

LMArena

评论（暂无评论）