MMLU

95 Vues

Aperçu

MMLU (Measuring Massive Multitask Language Understanding) est l'un des tests de référence les plus reconnus pour évaluer l'intelligence générale des grands modèles de langage (LLM). Contrairement aux tests spécialisés, MMLU évalue la capacité d'un modèle à résoudre des problèmes dans 57 disciplines différentes, couvrant les sciences, les technologies, l'ingénierie et les mathématiques (STEM), les sciences humaines, les sciences sociales et bien plus encore.

Capacités clés

Couverture étendue du domaine : Tests knowledge in diverse areas including mathematics, history, computer science, law, and medicine.
Évaluation à zéro tir et à quelques tirs : Permet aux chercheurs de mesurer les performances d'un modèle sans formation préalable sur des tâches spécifiques ou avec quelques exemples fournis.
Comparaison standardisée : Fournit une métrique cohérente pour comparer les capacités de raisonnement de différentes architectures de modèles (par exemple, GPT-4, Claude, Llama).

Idéal pour

MMLU est principalement utilisé par les chercheurs en IA, les développeurs et les évaluateurs de modèles qui ont besoin d'une évaluation rigoureuse et de niveau académique des connaissances du monde et des capacités de raisonnement linguistique d'un modèle.

Limites et considérations

Bien que le MMLU soit un indicateur pertinent de connaissances générales, il s'agit avant tout d'un test à choix multiples. De ce fait, il peut ne pas refléter pleinement la capacité d'un modèle à générer du contenu créatif, à suivre des instructions complexes ou à maintenir une cohérence conversationnelle à long terme. Par ailleurs, l'entraînement des modèles sur un volume croissant de données web accroît le risque de contamination des données, notamment par la présence de questions de référence dans l'ensemble d'entraînement.

Avertissement : Les indicateurs de référence et les méthodologies d’évaluation peuvent évoluer. Veuillez consulter les classements et la documentation les plus récents sur le site officiel de Papers with Code ou dans le dépôt académique.

Les informations peuvent être incomplètes ou obsolètes ; veuillez vérifier les détails sur le site web officiel.

FIN

Publié dans : Benchmarks de modèles d'IA

29/10/2023

0

Avis de droit d'auteur : Notre article original a été publié par Administrateur le 29 octobre 2023, total 1480 mots.

Note relative à la reproduction : Le contenu peut provenir de tiers et être traité à l'aide de l'IA. Nous ne garantissons pas son exactitude. Toutes les marques déposées appartiennent à leurs propriétaires respectifs.

Évaluation C