Analyse et optimisation par IA

Benchmarks de modèles d'IA MMBench

MMBench est un cadre d'évaluation complet conçu pour mesurer les capacités des grands modèles de langage multimodaux à travers un large éventail de tâches visuelles et textuelles.

Benchmarks de modèles d'IA HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

Benchmarks de modèles d'IA OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

Benchmarks de modèles d'IA FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

Benchmarks de modèles d'IA LMArena

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

Benchmarks de modèles d'IA MMLU

MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.

Benchmarks de modèles d'IA C-Eval

Une suite d'évaluation complète conçue pour évaluer les connaissances et les capacités des grands modèles de langage (LLM) spécifiquement dans la langue chinoise.

Benchmarks de modèles d'IA SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modèles d'IA.

Benchmarks de modèles d'IA Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Benchmarks de modèles d'IA CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.