MagicArena ist eine wettbewerbsorientierte Benchmarking-Plattform, die visuelle generative KI-Modelle durch direkten Vergleich mit menschlichen Modellen evaluiert und einordnet.
AGI-Eval ist eine spezialisierte Evaluierungsgemeinschaft, die die Fähigkeiten und Leistungsfähigkeit verschiedener KI-basierter großer Sprachmodelle vergleicht.
MMBench is a comprehensive evaluation framework designed to measure the capabilities of multimodal large language models across a wide array of visual and textual tasks.
OpenCompass is an open-source evaluation framework developed by the Shanghai AI Lab to provide standardized, comprehensive benchmarking for large language models.
MMLU is a comprehensive benchmark designed to evaluate the general knowledge and problem-solving capabilities of large language models across a vast array of disciplines.