AIモデルのベンチマーク MMBench MMBenchは、マルチモーダルな大規模言語モデルの能力を、幅広い視覚的およびテキスト的タスクにわたって測定するために設計された包括的な評価フレームワークです。
AIモデルのベンチマーク OpenCompass OpenCompassは、上海AI研究所が開発したオープンソースの評価フレームワークであり、大規模な言語モデルのための標準化された包括的なベンチマークを提供するものです。
AIモデルのベンチマーク オープンLLMリーダーボード Hugging Faceが提供する、オープンソースの大規模言語モデルのパフォーマンスを追跡・比較するための、包括的でコミュニティ主導型のベンチマークプラットフォーム。