MMBench est un cadre d'évaluation complet conçu pour mesurer les capacités des grands modèles de langage multimodaux à travers un large éventail de tâches visuelles et textuelles.
OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.
MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.
Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.