Benchmarks de modèles d'IA

Benchmarks de modèles d'IA Évaluation C

Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.

Benchmarks de modèles d'IA SuperCLUE

Un cadre d'évaluation professionnel fournissant des points de repère standardisés pour mesurer l'intelligence et l'utilité des modèles d'IA en langue chinoise.

Benchmarks de modèles d'IA Classement des LLM ouverts

Une plateforme de benchmark complète et collaborative développée par Hugging Face pour suivre et comparer les performances des grands modèles de langage open source.

Benchmarks de modèles d'IA CMMLU

Un référentiel d'évaluation complet conçu pour mesurer les connaissances générales et les capacités linguistiques des grands modèles de langage en chinois.

Benchmarks de modèles d'IA PubMedQA

PubMedQA est un ensemble de données spécialisé de questions-réponses biomédicales et un tableau de bord utilisé pour évaluer la précision des modèles d'IA dans le domaine médical.