CMMLU

85 浏览量

概述

CMMLU 是一个开源评估基准，专门用于评估大型语言模型 (LLM) 在汉语中的性能。与范围较窄的测试不同，CMMLU 提供对模型处理复杂语言细微差别和涵盖广泛学科的事实知识能力的全面分析，从而确保更全面地了解模型在汉语语境中的智能。

主要能力

多领域评估： 涵盖广泛的学科领域，包括人文科学、社会科学、STEM（科学、技术、工程和数学）以及专业认证。
零次评估： 旨在测试模型的固有知识，而无需进行大量的特定任务微调。
标准化指标： 为研究人员和开发人员提供了一个一致的框架，以便客观地比较不同的LLM。
开源框架： 该基准测试已发布在 GitHub 上，允许社区在各种环境中进行审核、扩展和实施。

最适合

人工智能研究人员： 那些专门为中国市场开发或改进LLM的人。
模型审计师： 需要客观基准来验证模型的准确性和推理能力的团队。
学术机构： 研究英语和汉语模型之间跨语言知识迁移的研究人员。

局限性和注意事项

作为基准测试，CMMLU 是一种测量工具，而非功能齐全的 AI 应用。用户应注意，基准测试得分并不总是与实际用户体验完全一致。此外，随着 LLM 的发展，基准测试可能需要更新，以防止数据泄露（即模型在测试集上进行训练）。

免责声明：功能和基准测试版本可能会有所变更。请查阅官方 GitHub 代码库中的最新文档。

信息可能不完整或已过时；请在官方网站上确认详细信息。

结尾

人工智能基准测试中文自然语言处理法学硕士评估模型测试开源

发布至：人工智能模型基准测试

2023年10月29日

0

版权声明：我们的原文由……发表行政人员截至 2023 年 10 月 29 日，共 1629 个单词。

复制说明：内容可能来源于第三方，并经人工智能辅助处理。我们不保证其准确性。所有商标均归其各自所有者所有。

PubMedQA

公开LLM排行榜

评论（暂无评论）