AIToolsFly
  • Aplicações de IA
    • Agentes de IA
    • Chatbots de IA
    • Ferramentas de Documentação de IA
    • Ferramentas de escritório com IA
    • Ferramentas de apresentação de IA
    • Ferramentas de produtividade com IA
    • Mecanismos de busca com IA
    • Ferramentas de vídeo com IA
    • Ferramentas de escrita com IA
  • Criação de conteúdo com IA
    • Ferramentas de áudio com IA
    • Ferramentas de design de IA
    • Removedores de fundo de imagem com IA
    • Geradores de imagens com IA
    • Ferramentas de imagem com IA
  • Desenvolvimento de IA
    • Estruturas de IA
    • Modelos de IA
    • Ferramentas de Programação de IA
    • Ferramentas de IA
  • Análise e Otimização de IA
    • Ferramentas de IA para detecção e otimização de conteúdo
    • Benchmarks de modelos de IA
  • Recursos de aprendizagem em IA
    • Sites para aprender IA
  • Aplicações de IA
    • Agentes de IA
    • Chatbots de IA
    • Ferramentas de Documentação de IA
    • Ferramentas de escritório com IA
    • Ferramentas de apresentação de IA
    • Ferramentas de produtividade com IA
    • Mecanismos de busca com IA
    • Ferramentas de vídeo com IA
    • Ferramentas de escrita com IA
  • Criação de conteúdo com IA
    • Ferramentas de áudio com IA
    • Ferramentas de design de IA
    • Removedores de fundo de imagem com IA
    • Geradores de imagens com IA
    • Ferramentas de imagem com IA
  • Desenvolvimento de IA
    • Estruturas de IA
    • Modelos de IA
    • Ferramentas de Programação de IA
    • Ferramentas de IA
  • Análise e Otimização de IA
    • Ferramentas de IA para detecção e otimização de conteúdo
    • Benchmarks de modelos de IA
  • Recursos de aprendizagem em IA
    • Sites para aprender IA
  1. Lar
  2. Análise e Otimização de IA
  3. Benchmarks de modelos de IA
  4. Lista de artigos
MagicArena

Benchmarks de modelos de IA Arena Mágica

MagicArena é uma plataforma de avaliação comparativa competitiva projetada para avaliar e classificar modelos visuais de IA generativa por meio de comparação lado a lado com humanos.

77 Vistas 0 Comentários
Benchmarks de modelos de IA 3 de janeiro de 2025
AGI-Eval

Benchmarks de modelos de IA Avaliação AGI

AGI-Eval é uma comunidade de avaliação especializada, criada para comparar as capacidades e o desempenho de diversos modelos de linguagem de IA de grande escala.

44 Vistas 0 Comentários
Benchmarks de modelos de IA 2024, 12 de agosto, 18 de agosto
H2O EvalGPT

Benchmarks de modelos de IA H2O EvalGPT

An advanced evaluation system by H2O.ai that utilizes Elo rating methodologies to benchmark and rank Large Language Models (LLMs).

59 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
LLMEval3

Benchmarks de modelos de IA LLMEval3

A professional evaluation benchmark from Fudan University’s NLP Lab designed to measure the performance and reliability of large language models.

63 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
MMBench

Benchmarks de modelos de IA MMBench

MMBench is a comprehensive evaluation framework designed to measure the capabilities of multimodal large language models across a wide array of visual and textual tasks.

65 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
HELM

Benchmarks de modelos de IA HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

102 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
OpenCompass

Benchmarks de modelos de IA OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

77 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
FlagEval

Benchmarks de modelos de IA FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

88 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
LMArena

Benchmarks de modelos de IA LMArena

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

89 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
MMLU

Benchmarks de modelos de IA MMLU

MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.

81 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
  • 1
  • 2
  • »
关于我们

AIToolsFly é um diretório selecionado de ferramentas de IA, plataformas de produtividade e recursos digitais. Ajudamos os usuários a descobrir e comparar rapidamente as melhores ferramentas em diferentes categorias.

版权说明

© 2026 AIToolsFly. Todos os direitos reservados. Todo o conteúdo é apenas para fins informativos. Marcas registradas e nomes de produtos pertencem aos seus respectivos proprietários.