モデル評価 - AIToolsFly

AIモデルのベンチマーク マジックアリーナ

MagicArenaは、人間との比較を通して、視覚生成AIモデルを評価・ランク付けするために設計された、競争的なベンチマークプラットフォームです。

AIモデルのベンチマーク MMBench

MMBenchは、マルチモーダルな大規模言語モデルの能力を、幅広い視覚的およびテキスト的タスクにわたって測定するために設計された包括的な評価フレームワークです。

Open LLM Leaderboard

AIモデルのベンチマーク オープンLLMリーダーボード

Hugging Faceが提供する、オープンソースの大規模言語モデルのパフォーマンスを追跡・比較するための、包括的でコミュニティ主導型のベンチマークプラットフォーム。

AIモデル Scale AI

A comprehensive data engine for AI development, specializing in high-quality data labeling, RLHF, and モデル評価 for enterprise machine learning.