Benchmarks de IA - AIToolsFly

Benchmarks de modelos de IA LLMEval3

Um parâmetro de avaliação profissional do Laboratório de PNL da Universidade de Fudan, projetado para medir o desempenho e a confiabilidade de grandes modelos de linguagem.

Benchmarks de modelos de IA Avaliação C

Um conjunto abrangente de ferramentas de avaliação, desenvolvido para avaliar o conhecimento e as capacidades de grandes modelos de linguagem (LLMs), especificamente no idioma chinês.

Benchmarks de modelos de IA SuperCLUE

Uma estrutura de avaliação profissional que fornece parâmetros padronizados para medir a inteligência e a utilidade de modelos de IA em língua chinesa.