AIToolsFly
  • 人工智能应用
    • 人工智能代理
    • 人工智能聊天机器人
    • 人工智能文档工具
    • 人工智能办公工具
    • 人工智能演示工具
    • 人工智能生产力工具
    • 人工智能搜索引擎
    • 人工智能视频工具
    • 人工智能写作工具
  • 人工智能内容创作
    • 人工智能音频工具
    • 人工智能设计工具
    • AI图像背景移除器
    • 人工智能图像生成器
    • 人工智能图像工具
  • 人工智能开发
    • 人工智能框架
    • 人工智能模型
    • 人工智能编程工具
    • 人工智能提示工具
  • 人工智能分析与优化
    • 人工智能内容检测和优化工具
    • 人工智能模型基准测试
  • 人工智能学习资源
    • 学习人工智能的网站
  • 人工智能应用
    • 人工智能代理
    • 人工智能聊天机器人
    • 人工智能文档工具
    • 人工智能办公工具
    • 人工智能演示工具
    • 人工智能生产力工具
    • 人工智能搜索引擎
    • 人工智能视频工具
    • 人工智能写作工具
  • 人工智能内容创作
    • 人工智能音频工具
    • 人工智能设计工具
    • AI图像背景移除器
    • 人工智能图像生成器
    • 人工智能图像工具
  • 人工智能开发
    • 人工智能框架
    • 人工智能模型
    • 人工智能编程工具
    • 人工智能提示工具
  • 人工智能分析与优化
    • 人工智能内容检测和优化工具
    • 人工智能模型基准测试
  • 人工智能学习资源
    • 学习人工智能的网站
  1. 家
  2. 人工智能分析与优化
  3. 人工智能模型基准测试
  4. 文章列表
MagicArena

人工智能模型基准测试 魔法竞技场

MagicArena 是一个具有竞争力的基准测试平台,旨在通过并排的人类比较来评估和排名视觉生成式 AI 模型。

78 浏览量 0 评论
人工智能模型基准测试 2025年11月3日
AGI-Eval

人工智能模型基准测试 AGI-Eval

AGI-Eval 是一个专门的评估社区,旨在对各种 AI 大型语言模型的能力和性能进行基准测试。

45 浏览量 0 评论
人工智能模型基准测试 2024年12月18日
H2O EvalGPT

人工智能模型基准测试 H2O EvalGPT

An advanced evaluation system by H2O.ai that utilizes Elo rating methodologies to benchmark and rank Large Language Models (LLMs).

59 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
LLMEval3

人工智能模型基准测试 LLMEval3

A professional evaluation benchmark from Fudan University’s NLP Lab designed to measure the performance and reliability of large language models.

63 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
MMBench

人工智能模型基准测试 MMBench

MMBench is a comprehensive evaluation framework designed to measure the capabilities of multimodal large language models across a wide array of visual and textual tasks.

65 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
HELM

人工智能模型基准测试 HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

102 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
OpenCompass

人工智能模型基准测试 OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

77 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
FlagEval

人工智能模型基准测试 FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

88 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
LMArena

人工智能模型基准测试 LMArena

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

89 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
MMLU

人工智能模型基准测试 MMLU

MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.

81 浏览量 0 评论
人工智能模型基准测试 2023年10月29日
  • 1
  • 2
  • »
关于我们

AIToolsFly 是一个精选的 AI 工具、效率平台和数字资源目录。我们帮助用户快速发现并比较不同类别中的最佳工具。

版权说明

© 2026 AIToolsFly。版权所有。所有内容仅供参考。商标和产品名称归其各自所有者所有。