Evaluación del Máster en Derecho (LLM)

Puntos de referencia de modelos de IA Evaluación de AGI

AGI-Eval es una comunidad de evaluación especializada diseñada para comparar las capacidades y el rendimiento de varios modelos de lenguaje de gran tamaño basados en IA.

Puntos de referencia de modelos de IA Evaluación de H2O GPT

Un sistema de evaluación avanzado de H2O.ai que utiliza metodologías de calificación Elo para comparar y clasificar modelos de lenguaje grandes (LLM, por sus siglas en inglés).

Puntos de referencia de modelos de IA LLMEval3

Un sistema de evaluación profesional del Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Fudan, diseñado para medir el rendimiento y la fiabilidad de los modelos de lenguaje a gran escala.

Puntos de referencia de modelos de IA TIMÓN

Un marco de evaluación estandarizado e integral de la Universidad de Stanford, diseñado para medir el rendimiento y la seguridad de los modelos de lenguaje a gran escala.

Puntos de referencia de modelos de IA OpenCompass

OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.

Puntos de referencia de modelos de IA FlagEval

Un marco de evaluación de código abierto desarrollado por la Academia de Inteligencia Artificial de Beijing (BAAI) para estandarizar y ampliar la evaluación comparativa de los programas de maestría en derecho (LLM).

Puntos de referencia de modelos de IA MMLU

MMLU es una herramienta de evaluación comparativa integral diseñada para evaluar el conocimiento general y la capacidad de resolución de problemas de grandes modelos de lenguaje en una amplia gama de disciplinas.

Puntos de referencia de modelos de IA Evaluación C

Un conjunto integral de herramientas de evaluación diseñado para valorar el conocimiento y las capacidades de los grandes modelos lingüísticos (MLL, por sus siglas en inglés), específicamente en el idioma chino.

Puntos de referencia de modelos de IA SuperCLUE

Un marco de evaluación profesional que proporciona parámetros estandarizados para medir la inteligencia y la utilidad de los modelos de IA en idioma chino.

Puntos de referencia de modelos de IA CMMLU

Un sistema de evaluación integral diseñado para medir el conocimiento general y las capacidades lingüísticas de los modelos lingüísticos a gran escala en chino.