AI分析と最適化

AIモデルのベンチマーク MMBench

MMBenchは、マルチモーダルな大規模言語モデルの能力を、幅広い視覚的およびテキスト的タスクにわたって測定するために設計された包括的な評価フレームワークです。

スタンフォード大学が開発した、大規模言語モデルの性能と安全性を測定するために設計された、標準化された包括的な評価フレームワーク。

OpenCompassは、上海AI研究所が開発したオープンソースの評価フレームワークであり、大規模な言語モデルのための標準化された包括的なベンチマークを提供するものです。

北京人工知能研究院（BAAI）が開発したオープンソースの評価フレームワークで、LLM（法学修士）のベンチマークを標準化し、規模を拡大することを目的としている。

ユーザーがブラインド方式で大規模言語モデルを並べて比較し、性能を徹底的にテストするクラウドソーシング型のベンチマークプラットフォーム。

MMLUは、幅広い分野にわたる大規模言語モデルの一般知識と問題解決能力を評価するために設計された包括的なベンチマークです。

特に中国語における大規模言語モデル（LLM）の知識と能力を評価するために設計された、包括的な評価スイート。

中国語AIモデルの知能と有用性を測定するための標準化されたベンチマークを提供する、専門的な評価フレームワーク。

Hugging Faceが提供する、オープンソースの大規模言語モデルのパフォーマンスを追跡・比較するための、包括的でコミュニティ主導型のベンチマークプラットフォーム。

中国語における大規模言語モデルの一般知識と言語能力を測定するために設計された、包括的な評価ベンチマーク。