MagicArena est une plateforme d'évaluation comparative compétitive conçue pour évaluer et classer les modèles d'IA générative visuelle par le biais d'une comparaison humaine directe.
MMBench est un cadre d'évaluation complet conçu pour mesurer les capacités des grands modèles de langage multimodaux à travers un large éventail de tâches visuelles et textuelles.
Un cadre d'évaluation standardisé et holistique de l'Université de Stanford, conçu pour mesurer la performance et la sécurité des grands modèles de langage.
OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.