MMBench es un marco de evaluación integral diseñado para medir las capacidades de los modelos de lenguaje multimodales a gran escala en una amplia gama de tareas visuales y textuales.
OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.
MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.
A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.