Aperçu
MMLU (Measuring Massive Multitask Language Understanding) est l'un des tests de référence les plus reconnus pour évaluer l'intelligence générale des grands modèles de langage (LLM). Contrairement aux tests spécialisés, MMLU évalue la capacité d'un modèle à résoudre des problèmes dans 57 disciplines différentes, couvrant les sciences, les technologies, l'ingénierie et les mathématiques (STEM), les sciences humaines, les sciences sociales et bien plus encore.
Capacités clés
- Couverture étendue du domaine : Tests knowledge in diverse areas including mathematics, history, computer science, law, and medicine.
- Évaluation à zéro tir et à quelques tirs : Permet aux chercheurs de mesurer les performances d'un modèle sans formation préalable sur des tâches spécifiques ou avec quelques exemples fournis.
- Comparaison standardisée : Fournit une métrique cohérente pour comparer les capacités de raisonnement de différentes architectures de modèles (par exemple, GPT-4, Claude, Llama).
Idéal pour
MMLU est principalement utilisé par les chercheurs en IA, les développeurs et les évaluateurs de modèles qui ont besoin d'une évaluation rigoureuse et de niveau académique des connaissances du monde et des capacités de raisonnement linguistique d'un modèle.
Limites et considérations
Bien que le MMLU soit un indicateur pertinent de connaissances générales, il s'agit avant tout d'un test à choix multiples. De ce fait, il peut ne pas refléter pleinement la capacité d'un modèle à générer du contenu créatif, à suivre des instructions complexes ou à maintenir une cohérence conversationnelle à long terme. Par ailleurs, l'entraînement des modèles sur un volume croissant de données web accroît le risque de contamination des données, notamment par la présence de questions de référence dans l'ensemble d'entraînement.
Avertissement : Les indicateurs de référence et les méthodologies d’évaluation peuvent évoluer. Veuillez consulter les classements et la documentation les plus récents sur le site officiel de Papers with Code ou dans le dépôt académique.
Les informations peuvent être incomplètes ou obsolètes ; veuillez vérifier les détails sur le site web officiel.