Un référentiel d'évaluation professionnelle du laboratoire de traitement automatique du langage naturel de l'université Fudan, conçu pour mesurer les performances et la fiabilité des grands modèles de langage.
Un cadre d'évaluation standardisé et holistique de l'Université de Stanford, conçu pour mesurer la performance et la sécurité des grands modèles de langage.
OpenCompass est un cadre d'évaluation open source développé par le Shanghai AI Lab pour fournir une évaluation comparative standardisée et complète des grands modèles de langage.
Un cadre d'évaluation open source développé par l'Académie d'intelligence artificielle de Pékin (BAAI) pour standardiser et étendre l'évaluation comparative des LLM.
MMLU est un banc d'essai complet conçu pour évaluer les connaissances générales et les capacités de résolution de problèmes des grands modèles de langage dans un large éventail de disciplines.
Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.
Un cadre d'évaluation professionnel fournissant des points de repère standardisés pour mesurer l'intelligence et l'utilité des modèles d'IA en langue chinoise.
Un référentiel d'évaluation complet conçu pour mesurer les connaissances générales et les capacités linguistiques des grands modèles de langage en chinois.