AGI-Eval es una comunidad de evaluación especializada diseñada para comparar las capacidades y el rendimiento de varios modelos de lenguaje de gran tamaño basados en IA.
Un sistema de evaluación avanzado de H2O.ai que utiliza metodologías de calificación Elo para comparar y clasificar modelos de lenguaje grandes (LLM, por sus siglas en inglés).
Un sistema de evaluación profesional del Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Fudan, diseñado para medir el rendimiento y la fiabilidad de los modelos de lenguaje a gran escala.
Un marco de evaluación estandarizado e integral de la Universidad de Stanford, diseñado para medir el rendimiento y la seguridad de los modelos de lenguaje a gran escala.
OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.
Un marco de evaluación de código abierto desarrollado por la Academia de Inteligencia Artificial de Beijing (BAAI) para estandarizar y ampliar la evaluación comparativa de los programas de maestría en derecho (LLM).
MMLU es una herramienta de evaluación comparativa integral diseñada para evaluar el conocimiento general y la capacidad de resolución de problemas de grandes modelos de lenguaje en una amplia gama de disciplinas.
Un conjunto integral de herramientas de evaluación diseñado para valorar el conocimiento y las capacidades de los grandes modelos lingüísticos (MLL, por sus siglas en inglés), específicamente en el idioma chino.
Un marco de evaluación profesional que proporciona parámetros estandarizados para medir la inteligencia y la utilidad de los modelos de IA en idioma chino.
Un sistema de evaluación integral diseñado para medir el conocimiento general y las capacidades lingüísticas de los modelos lingüísticos a gran escala en chino.