Pruebas de modelos - AIToolsFly

Puntos de referencia de modelos de IA LLMEval3

Un sistema de evaluación profesional del Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Fudan, diseñado para medir el rendimiento y la fiabilidad de los modelos de lenguaje a gran escala.

Puntos de referencia de modelos de IA TIMÓN

Un marco de evaluación estandarizado e integral de la Universidad de Stanford, diseñado para medir el rendimiento y la seguridad de los modelos de lenguaje a gran escala.

Puntos de referencia de modelos de IA OpenCompass

OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.

Puntos de referencia de modelos de IA FlagEval

Un marco de evaluación de código abierto desarrollado por la Academia de Inteligencia Artificial de Beijing (BAAI) para estandarizar y ampliar la evaluación comparativa de los programas de maestría en derecho (LLM).

Puntos de referencia de modelos de IA MMLU

MMLU es una herramienta de evaluación comparativa integral diseñada para evaluar el conocimiento general y la capacidad de resolución de problemas de grandes modelos de lenguaje en una amplia gama de disciplinas.

Puntos de referencia de modelos de IA Evaluación C

Un conjunto integral de herramientas de evaluación diseñado para valorar el conocimiento y las capacidades de los grandes modelos lingüísticos (MLL, por sus siglas en inglés), específicamente en el idioma chino.

Puntos de referencia de modelos de IA SuperCLUE

Un marco de evaluación profesional que proporciona parámetros estandarizados para medir la inteligencia y la utilidad de los modelos de IA en idioma chino.

Puntos de referencia de modelos de IA CMMLU

Un sistema de evaluación integral diseñado para medir el conocimiento general y las capacidades lingüísticas de los modelos lingüísticos a gran escala en chino.