MagicArena è una piattaforma di benchmarking competitivo progettata per valutare e classificare i modelli di intelligenza artificiale generativa visiva attraverso un confronto diretto effettuato da esseri umani.
AGI-Eval è una comunità di valutazione specializzata, progettata per confrontare le capacità e le prestazioni di diversi modelli di intelligenza artificiale per l'elaborazione di grandi quantità di linguaggio.
Un sistema di valutazione avanzato sviluppato da H2O.ai che utilizza metodologie di rating Elo per confrontare e classificare i modelli linguistici di grandi dimensioni (LLM).
MMBench è un framework di valutazione completo progettato per misurare le capacità di modelli linguistici multimodali di grandi dimensioni in una vasta gamma di attività visive e testuali.
Un quadro di valutazione olistico e standardizzato, sviluppato dall'Università di Stanford, progettato per misurare le prestazioni e la sicurezza di modelli linguistici complessi.
OpenCompass è un framework di valutazione open-source sviluppato dallo Shanghai AI Lab per fornire un benchmarking standardizzato e completo per modelli linguistici di grandi dimensioni.
Un framework di valutazione open-source sviluppato dall'Accademia di Intelligenza Artificiale di Pechino (BAAI) per standardizzare e scalare il benchmarking LLM.