Evaluación del modelo

Puntos de referencia de modelos de IA MagicArena

MagicArena es una plataforma de evaluación comparativa competitiva diseñada para evaluar y clasificar modelos de IA generativa visual mediante una comparación humana directa.

Puntos de referencia de modelos de IA MMBench

MMBench is a comprehensive evaluation framework designed to measure the capabilities of multimodal large language models across a wide array of visual and textual tasks.

Puntos de referencia de modelos de IA Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Modelos de IA Scale AI

A comprehensive data engine for AI development, specializing in high-quality data labeling, RLHF, and Evaluación del modelo for enterprise machine learning.