LLM 评估 - AIToolsFly

人工智能模型基准测试 AGI-Eval

AGI-Eval 是一个专门的评估社区，旨在对各种 AI 大型语言模型的能力和性能进行基准测试。

H2O.ai 开发的先进评估系统，利用 Elo 评分方法对大型语言模型 (LLM) 进行基准测试和排名。

这是复旦大学自然语言处理实验室设计的专业评估基准，旨在衡量大型语言模型的性能和可靠性。

斯坦福大学开发的标准化、整体评估框架，旨在衡量大型语言模型的性能和安全性。

OpenCompass 是由上海人工智能实验室开发的开源评估框架，旨在为大型语言模型提供标准化、全面的基准测试。

北京人工智能研究院（BAAI）开发的开源评估框架，用于标准化和扩展LLM基准测试。

MMLU 是一个综合性的基准测试，旨在评估大型语言模型在众多学科领域的通用知识和问题解决能力。

一套综合评估工具，旨在评估大型语言模型（LLM）在中文方面的知识和能力。

一个专业的评估框架，提供标准化的基准来衡量中文人工智能模型的智能和实用性。

一个综合评估基准，旨在衡量大型语言模型在中文方面的通用知识和语言能力。