模型评估 - AIToolsFly

人工智能模型基准测试 魔法竞技场

MagicArena 是一个具有竞争力的基准测试平台，旨在通过并排的人类比较来评估和排名视觉生成式 AI 模型。

人工智能模型基准测试 MMBench

MMBench 是一个综合评估框架，旨在衡量多模态大型语言模型在各种视觉和文本任务中的能力。

Open LLM Leaderboard

人工智能模型基准测试 公开LLM排行榜

Hugging Face 开发的综合性、社区驱动型基准测试平台，用于跟踪和比较开源大型语言模型的性能。

人工智能模型 规模化人工智能

一个面向人工智能开发的综合数据引擎，专门用于高质量数据标注、RLHF 和企业级机器学习模型评估。