AI 基准测试 - AIToolsFly

人工智能模型基准测试 LLMEval3

这是复旦大学自然语言处理实验室设计的专业评估基准，旨在衡量大型语言模型的性能和可靠性。

人工智能模型基准测试 C-Eval

一套综合评估工具，旨在评估大型语言模型（LLM）在中文方面的知识和能力。

人工智能模型基准测试 超级线索

一个专业的评估框架，提供标准化的基准来衡量中文人工智能模型的智能和实用性。