Analisi e ottimizzazione tramite IA

Benchmark dei modelli di intelligenza artificiale MMBench

MMBench is a comprehensive evaluation framework designed to measure the capabilities of multimodal large language models across a wide array of visual and textual tasks.

Benchmark dei modelli di intelligenza artificiale HELM

A standardized, holistic evaluation framework from Stanford University designed to measure the performance and safety of large language models.

Benchmark dei modelli di intelligenza artificiale OpenCompass

OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.

Benchmark dei modelli di intelligenza artificiale FlagEval

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

Benchmark dei modelli di intelligenza artificiale LMArena

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

Benchmark dei modelli di intelligenza artificiale MMLU

MMLU è un benchmark completo progettato per valutare le capacità di conoscenza generale e di risoluzione dei problemi di modelli linguistici di grandi dimensioni in una vasta gamma di discipline.

Benchmark dei modelli di intelligenza artificiale C-Eval

A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.

Benchmark dei modelli di intelligenza artificiale SuperCLUE

A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelli di intelligenza artificiale.

Benchmark dei modelli di intelligenza artificiale Open LLM Leaderboard

A comprehensive, community-driven benchmark platform by Hugging Face to track and compare the performance of open-source large language models.

Benchmark dei modelli di intelligenza artificiale CMMLU

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.