MagicArena 是一个具有竞争力的基准测试平台,旨在通过并排的人类比较来评估和排名视觉生成式 AI 模型。
MMBench 是一个综合评估框架,旨在衡量多模态大型语言模型在各种视觉和文本任务中的能力。
Hugging Face 开发的综合性、社区驱动型基准测试平台,用于跟踪和比较开源大型语言模型的性能。
一个面向人工智能开发的综合数据引擎,专门用于高质量数据标注、RLHF 和企业级机器学习模型评估。