H2O.aiによる高度な評価システムで、Eloレーティングの手法を用いて大規模言語モデル(LLM)のベンチマークとランキングを行います。
ユーザーがブラインド方式で大規模言語モデルを並べて比較し、性能を徹底的にテストするクラウドソーシング型のベンチマークプラットフォーム。