Benchmark dei modelli di intelligenza artificiale

Benchmark dei modelli di intelligenza artificiale C-Eval

A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.

Benchmark dei modelli di intelligenza artificiale SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelli di intelligenza artificiale.

Benchmark dei modelli di intelligenza artificiale Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Benchmark dei modelli di intelligenza artificiale CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.

Benchmark dei modelli di intelligenza artificiale PubMedQA

PubMedQA è un dataset specializzato in ambito biomedico, con relativa classifica, utilizzato per valutare l'accuratezza dei modelli di intelligenza artificiale in campo medico.