AIベンチマーク - AIToolsFly

AIモデルのベンチマーク LLMEval3

復旦大学自然言語処理研究所が開発した、大規模言語モデルの性能と信頼性を測定するための専門的な評価ベンチマーク。

AIモデルのベンチマーク C-Eval

特に中国語における大規模言語モデル（LLM）の知識と能力を評価するために設計された、包括的な評価スイート。

AIモデルのベンチマーク スーパークルー

中国語AIモデルの知能と有用性を測定するための標準化されたベンチマークを提供する、専門的な評価フレームワーク。