Un benchmark di valutazione professionale del Laboratorio di Elaborazione del Linguaggio (NLP) dell'Università di Fudan, progettato per misurare le prestazioni e l'affidabilità di modelli linguistici di grandi dimensioni.
Un quadro di valutazione olistico e standardizzato, sviluppato dall'Università di Stanford, progettato per misurare le prestazioni e la sicurezza di modelli linguistici complessi.
OpenCompass è un framework di valutazione open-source sviluppato dallo Shanghai AI Lab per fornire un benchmarking standardizzato e completo per modelli linguistici di grandi dimensioni.
Un framework di valutazione open-source sviluppato dall'Accademia di Intelligenza Artificiale di Pechino (BAAI) per standardizzare e scalare il benchmarking LLM.
MMLU è un benchmark completo progettato per valutare le capacità di conoscenza generale e di risoluzione dei problemi di modelli linguistici di grandi dimensioni in una vasta gamma di discipline.
Una suite di valutazione completa progettata per valutare le conoscenze e le capacità di modelli linguistici di grandi dimensioni (LLM) specificamente nella lingua cinese.
Un quadro di valutazione professionale che fornisce parametri di riferimento standardizzati per misurare l'intelligenza e l'utilità dei modelli di intelligenza artificiale in lingua cinese.
Un sistema di valutazione completo progettato per misurare le conoscenze generali e le capacità linguistiche di modelli linguistici complessi (Large Language Models) in cinese.