这是复旦大学自然语言处理实验室设计的专业评估基准,旨在衡量大型语言模型的性能和可靠性。
一套综合评估工具,旨在评估大型语言模型(LLM)在中文方面的知识和能力。
一个专业的评估框架,提供标准化的基准来衡量中文人工智能模型的智能和实用性。