人工智能模型基准测试 - AIToolsFly

人工智能模型基准测试 C-Eval

一套综合评估工具，旨在评估大型语言模型（LLM）在中文方面的知识和能力。

人工智能模型基准测试 超级线索

一个专业的评估框架，提供标准化的基准来衡量中文人工智能模型的智能和实用性。

Open LLM Leaderboard

人工智能模型基准测试 公开LLM排行榜

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

人工智能模型基准测试 CMMLU

一个综合评估基准，旨在衡量大型语言模型在中文方面的通用知识和语言能力。

人工智能模型基准测试 PubMedQA

PubMedQA 是一个专门用于衡量医学领域人工智能模型准确性的生物医学问答数据集和排行榜。