Um parâmetro de avaliação profissional do Laboratório de PNL da Universidade de Fudan, projetado para medir o desempenho e a confiabilidade de grandes modelos de linguagem.
Uma estrutura de avaliação padronizada e holística da Universidade de Stanford, projetada para medir o desempenho e a segurança de grandes modelos de linguagem.
O OpenCompass é uma estrutura de avaliação de código aberto desenvolvida pelo Laboratório de IA de Xangai para fornecer uma avaliação comparativa padronizada e abrangente para grandes modelos de linguagem.
Uma estrutura de avaliação de código aberto desenvolvida pela Academia de Inteligência Artificial de Pequim (BAAI) para padronizar e ampliar a avaliação comparativa de projetos de mestrado em direito (LLM).
MMLU é um benchmark abrangente projetado para avaliar o conhecimento geral e as capacidades de resolução de problemas de grandes modelos de linguagem em uma vasta gama de disciplinas.
Um conjunto abrangente de ferramentas de avaliação, desenvolvido para avaliar o conhecimento e as capacidades de grandes modelos de linguagem (LLMs), especificamente no idioma chinês.
Uma estrutura de avaliação profissional que fornece parâmetros padronizados para medir a inteligência e a utilidade de modelos de IA em língua chinesa.
Um parâmetro de avaliação abrangente, concebido para medir o conhecimento geral e as capacidades linguísticas de Grandes Modelos de Linguagem em Chinês.