这是复旦大学自然语言处理实验室设计的专业评估基准,旨在衡量大型语言模型的性能和可靠性。
斯坦福大学开发的标准化、整体评估框架,旨在衡量大型语言模型的性能和安全性。
OpenCompass 是由上海人工智能实验室开发的开源评估框架,旨在为大型语言模型提供标准化、全面的基准测试。
北京人工智能研究院 (BAAI) 开发的开源评估框架,用于标准化和扩展 LLM 基准测试。
MMLU 是一个综合性的基准测试,旨在评估大型语言模型在众多学科领域的通用知识和问题解决能力。
一套综合评估工具,旨在评估大型语言模型(LLM)在中文方面的知识和能力。
一个专业的评估框架,提供标准化的基准来衡量中文人工智能模型的智能和实用性。
一个综合评估基准,旨在衡量大型语言模型在中文方面的通用知识和语言能力。