Benchmarks de modelos de IA

Benchmarks de modelos de IA C-Eval

A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.

Benchmarks de modelos de IA SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelos de IA.

Benchmarks de modelos de IA Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Benchmarks de modelos de IA CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.

Benchmarks de modelos de IA PubMedQA

PubMedQA é um conjunto de dados especializado em perguntas e respostas biomédicas e um ranking usado para avaliar a precisão de modelos de IA no domínio médico.