Análisis y optimización de IA

Puntos de referencia de modelos de IA MMBench

MMBench es un marco de evaluación integral diseñado para medir las capacidades de los modelos de lenguaje multimodales a gran escala en una amplia gama de tareas visuales y textuales.

Puntos de referencia de modelos de IA HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

Puntos de referencia de modelos de IA OpenCompass

OpenCompass es un marco de evaluación de código abierto desarrollado por el Laboratorio de IA de Shanghái para proporcionar una evaluación comparativa estandarizada y completa para grandes modelos de lenguaje.

Puntos de referencia de modelos de IA FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

Puntos de referencia de modelos de IA LMArena

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

Puntos de referencia de modelos de IA MMLU

MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.

Puntos de referencia de modelos de IA C-Eval

A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.

Puntos de referencia de modelos de IA SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelos de IA.

Puntos de referencia de modelos de IA Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Puntos de referencia de modelos de IA CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.