Benchmark dell'IA - AIToolsFly

Benchmark dei modelli di intelligenza artificiale MMLU

MMLU è un benchmark completo progettato per valutare le capacità di conoscenza generale e di risoluzione dei problemi di modelli linguistici di grandi dimensioni in una vasta gamma di discipline.

Benchmark dei modelli di intelligenza artificiale CMMLU

Un sistema di valutazione completo progettato per misurare le conoscenze generali e le capacità linguistiche di modelli linguistici complessi (Large Language Models) in cinese.