Teste de modelos - AIToolsFly

Benchmarks de modelos de IA LLMEval3

Um parâmetro de avaliação profissional do Laboratório de PNL da Universidade de Fudan, projetado para medir o desempenho e a confiabilidade de grandes modelos de linguagem.

Benchmarks de modelos de IA LEME

Uma estrutura de avaliação padronizada e holística da Universidade de Stanford, projetada para medir o desempenho e a segurança de grandes modelos de linguagem.

Benchmarks de modelos de IA OpenCompass

O OpenCompass é uma estrutura de avaliação de código aberto desenvolvida pelo Laboratório de IA de Xangai para fornecer uma avaliação comparativa padronizada e abrangente para grandes modelos de linguagem.

Benchmarks de modelos de IA Avaliação de sinalizador

Uma estrutura de avaliação de código aberto desenvolvida pela Academia de Inteligência Artificial de Pequim (BAAI) para padronizar e ampliar a avaliação comparativa de projetos de mestrado em direito (LLM).

Benchmarks de modelos de IA MMLU

MMLU é um benchmark abrangente projetado para avaliar o conhecimento geral e as capacidades de resolução de problemas de grandes modelos de linguagem em uma vasta gama de disciplinas.

Benchmarks de modelos de IA Avaliação C

Um conjunto abrangente de ferramentas de avaliação, desenvolvido para avaliar o conhecimento e as capacidades de grandes modelos de linguagem (LLMs), especificamente no idioma chinês.

Benchmarks de modelos de IA SuperCLUE

Uma estrutura de avaliação profissional que fornece parâmetros padronizados para medir a inteligência e a utilidade de modelos de IA em língua chinesa.

Benchmarks de modelos de IA CMMLU

Um parâmetro de avaliação abrangente, concebido para medir o conhecimento geral e as capacidades linguísticas de Grandes Modelos de Linguagem em Chinês.