Ein fortschrittliches Evaluierungssystem von H2O.ai, das Elo-Bewertungsmethoden nutzt, um große Sprachmodelle (LLMs) zu vergleichen und zu ordnen.
Eine Crowdsourcing-Benchmarking-Plattform, auf der Benutzer große Sprachmodelle durch Blindvergleiche testen.