Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.
Un cadre d'évaluation professionnel fournissant des points de repère standardisés pour mesurer l'intelligence et l'utilité des modèles d'IA en langue chinoise.
Une plateforme de benchmark complète et collaborative développée par Hugging Face pour suivre et comparer les performances des grands modèles de langage open source.
Un référentiel d'évaluation complet conçu pour mesurer les connaissances générales et les capacités linguistiques des grands modèles de langage en chinois.
PubMedQA est un ensemble de données spécialisé de questions-réponses biomédicales et un tableau de bord utilisé pour évaluer la précision des modèles d'IA dans le domaine médical.