Évaluation comparative de l'IA

Benchmarks de modèles d'IA MagicArena

MagicArena est une plateforme d'évaluation comparative compétitive conçue pour évaluer et classer les modèles d'IA générative visuelle par le biais d'une comparaison humaine directe.

Benchmarks de modèles d'IA Évaluation AGI

AGI-Eval est une communauté d'évaluation spécialisée conçue pour comparer les capacités et les performances de divers grands modèles de langage d'IA.

Benchmarks de modèles d'IA H2O EvalGPT

Un système d'évaluation avancé de H2O.ai qui utilise les méthodologies de notation Elo pour comparer et classer les grands modèles de langage (LLM).

Benchmarks de modèles d'IA MMBench

MMBench est un cadre d'évaluation complet conçu pour mesurer les capacités des grands modèles de langage multimodaux à travers un large éventail de tâches visuelles et textuelles.

Benchmarks de modèles d'IA BARRE

Un cadre d'évaluation standardisé et holistique de l'Université de Stanford, conçu pour mesurer la performance et la sécurité des grands modèles de langage.

Benchmarks de modèles d'IA OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

Benchmarks de modèles d'IA FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.