Benchmark di intelligenza artificiale

Benchmark dei modelli di intelligenza artificiale LLMEval3

Un benchmark di valutazione professionale del Laboratorio di Elaborazione del Linguaggio (NLP) dell'Università di Fudan, progettato per misurare le prestazioni e l'affidabilità di modelli linguistici di grandi dimensioni.

Benchmark dei modelli di intelligenza artificiale C-Eval

Una suite di valutazione completa progettata per valutare le conoscenze e le capacità di modelli linguistici di grandi dimensioni (LLM) specificamente nella lingua cinese.

Benchmark dei modelli di intelligenza artificiale SuperCLUDE

Un quadro di valutazione professionale che fornisce parametri di riferimento standardizzati per misurare l'intelligenza e l'utilità dei modelli di intelligenza artificiale in lingua cinese.