AIToolsFly
  • Aplicações de IA
    • Agentes de IA
    • Chatbots de IA
    • Ferramentas de Documentação de IA
    • Ferramentas de escritório com IA
    • Ferramentas de apresentação de IA
    • Ferramentas de produtividade com IA
    • Mecanismos de busca com IA
    • Ferramentas de vídeo com IA
    • Ferramentas de escrita com IA
  • Criação de conteúdo com IA
    • Ferramentas de áudio com IA
    • Ferramentas de design de IA
    • Removedores de fundo de imagem com IA
    • Geradores de imagens com IA
    • Ferramentas de imagem com IA
  • Desenvolvimento de IA
    • Estruturas de IA
    • Modelos de IA
    • Ferramentas de Programação de IA
    • Ferramentas de IA
  • Análise e Otimização de IA
    • Ferramentas de IA para detecção e otimização de conteúdo
    • Benchmarks de modelos de IA
  • Recursos de aprendizagem em IA
    • Sites para aprender IA
  • Aplicações de IA
    • Agentes de IA
    • Chatbots de IA
    • Ferramentas de Documentação de IA
    • Ferramentas de escritório com IA
    • Ferramentas de apresentação de IA
    • Ferramentas de produtividade com IA
    • Mecanismos de busca com IA
    • Ferramentas de vídeo com IA
    • Ferramentas de escrita com IA
  • Criação de conteúdo com IA
    • Ferramentas de áudio com IA
    • Ferramentas de design de IA
    • Removedores de fundo de imagem com IA
    • Geradores de imagens com IA
    • Ferramentas de imagem com IA
  • Desenvolvimento de IA
    • Estruturas de IA
    • Modelos de IA
    • Ferramentas de Programação de IA
    • Ferramentas de IA
  • Análise e Otimização de IA
    • Ferramentas de IA para detecção e otimização de conteúdo
    • Benchmarks de modelos de IA
  • Recursos de aprendizagem em IA
    • Sites para aprender IA
  1. Lar
  2. Marcação
  3. LLM Evaluation
AGI-Eval

Benchmarks de modelos de IA AGI-Eval

AGI-Eval is a specialized evaluation community designed to benchmark the capabilities and performance of various AI large language models.

48 Vistas 0 Comentários
Benchmarks de modelos de IA 2024年12月18日
H2O EvalGPT

Benchmarks de modelos de IA H2O EvalGPT

An advanced evaluation system by H2O.ai that utilizes Elo rating methodologies to benchmark and rank Large Language Models (LLMs).

68 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
LLMEval3

Benchmarks de modelos de IA LLMEval3

A professional evaluation benchmark from Fudan University’s NLP Lab designed to measure the performance and reliability of large language models.

69 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
HELM

Benchmarks de modelos de IA HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

111 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
OpenCompass

Benchmarks de modelos de IA OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

82 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
FlagEval

Benchmarks de modelos de IA FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

100 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
MMLU

Benchmarks de modelos de IA MMLU

MMLU é um benchmark abrangente projetado para avaliar o conhecimento geral e as capacidades de resolução de problemas de grandes modelos de linguagem em uma vasta gama de disciplinas.

88 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
C-Eval

Benchmarks de modelos de IA C-Eval

A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.

94 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
SuperCLUE

Benchmarks de modelos de IA SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelos de IA.

75 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
CMMLU

Benchmarks de modelos de IA CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.

84 Vistas 0 Comentários
Benchmarks de modelos de IA 2023年10月29日
  • 1
  • 2
  • »
关于我们

AIToolsFly é um diretório selecionado de ferramentas de IA, plataformas de produtividade e recursos digitais. Ajudamos os usuários a descobrir e comparar rapidamente as melhores ferramentas em diferentes categorias.

版权说明

© 2026 AIToolsFly. Todos os direitos reservados. Todo o conteúdo é apenas para fins informativos. Marcas registradas e nomes de produtos pertencem aos seus respectivos proprietários.