Un sistema de evaluación profesional del Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Fudan, diseñado para medir el rendimiento y la fiabilidad de los modelos de lenguaje a gran escala.
Un marco de evaluación estandarizado e integral de la Universidad de Stanford, diseñado para medir el rendimiento y la seguridad de los modelos de lenguaje a gran escala.
OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.
Un marco de evaluación de código abierto desarrollado por la Academia de Inteligencia Artificial de Beijing (BAAI) para estandarizar y ampliar la evaluación comparativa de los programas de maestría en derecho (LLM).
MMLU es una herramienta de evaluación comparativa integral diseñada para evaluar el conocimiento general y la capacidad de resolución de problemas de grandes modelos de lenguaje en una amplia gama de disciplinas.
Un conjunto integral de herramientas de evaluación diseñado para valorar el conocimiento y las capacidades de los grandes modelos lingüísticos (MLL, por sus siglas en inglés), específicamente en el idioma chino.
Un marco de evaluación profesional que proporciona parámetros estandarizados para medir la inteligencia y la utilidad de los modelos de IA en idioma chino.
Un sistema de evaluación integral diseñado para medir el conocimiento general y las capacidades lingüísticas de los modelos lingüísticos a gran escala en chino.