Évaluation LLM - AIToolsFly

Benchmarks de modèles d'IA Évaluation AGI

AGI-Eval est une communauté d'évaluation spécialisée conçue pour comparer les capacités et les performances de divers grands modèles de langage d'IA.

Benchmarks de modèles d'IA H2O EvalGPT

Un système d'évaluation avancé de H2O.ai qui utilise les méthodologies de notation Elo pour comparer et classer les grands modèles de langage (LLM).

Benchmarks de modèles d'IA LLMEval3

Un référentiel d'évaluation professionnelle du laboratoire de traitement automatique du langage naturel de l'université Fudan, conçu pour mesurer les performances et la fiabilité des grands modèles de langage.

Benchmarks de modèles d'IA BARRE

Un cadre d'évaluation standardisé et holistique de l'Université de Stanford, conçu pour mesurer la performance et la sécurité des grands modèles de langage.

Benchmarks de modèles d'IA OpenCompass

OpenCompass est un cadre d'évaluation open source développé par le Shanghai AI Lab pour fournir une évaluation comparative standardisée et complète des grands modèles de langage.

Benchmarks de modèles d'IA FlagEval

Un cadre d'évaluation open source développé par l'Académie d'intelligence artificielle de Pékin (BAAI) pour standardiser et étendre l'évaluation comparative des LLM.

Benchmarks de modèles d'IA MMLU

MMLU est un banc d'essai complet conçu pour évaluer les connaissances générales et les capacités de résolution de problèmes des grands modèles de langage dans un large éventail de disciplines.

Benchmarks de modèles d'IA Évaluation C

Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.

Benchmarks de modèles d'IA SuperCLUE

Un cadre d'évaluation professionnel fournissant des points de repère standardisés pour mesurer l'intelligence et l'utilité des modèles d'IA en langue chinoise.

Benchmarks de modèles d'IA CMMLU

Un référentiel d'évaluation complet conçu pour mesurer les connaissances générales et les capacités linguistiques des grands modèles de langage en chinois.