Modelltests – AIToolsFly

KI-Modell-Benchmarks LLMEval3

Ein professioneller Bewertungsmaßstab des NLP-Labors der Fudan-Universität, der entwickelt wurde, um die Leistungsfähigkeit und Zuverlässigkeit großer Sprachmodelle zu messen.

KI-Modell-Benchmarks HELM

Ein standardisierter, ganzheitlicher Bewertungsrahmen der Stanford University, der entwickelt wurde, um die Leistungsfähigkeit und Sicherheit großer Sprachmodelle zu messen.

KI-Modell-Benchmarks OpenCompass

OpenCompass ist ein Open-Source-Evaluierungsframework, das vom Shanghai AI Lab entwickelt wurde, um standardisierte, umfassende Benchmarks für große Sprachmodelle bereitzustellen.

KI-Modell-Benchmarks FlagEval

Ein von der Beijing Academy of Artificial Intelligence (BAAI) entwickelter Open-Source-Evaluierungsrahmen zur Standardisierung und Skalierung von LLM-Benchmarking.

KI-Modell-Benchmarks MMLU

MMLU ist ein umfassender Benchmark, der entwickelt wurde, um das allgemeine Wissen und die Problemlösungsfähigkeiten großer Sprachmodelle in einer Vielzahl von Disziplinen zu bewerten.

KI-Modell-Benchmarks C-Eval

Ein umfassendes Evaluierungssystem zur Beurteilung des Wissens und der Fähigkeiten großer Sprachmodelle (LLMs) speziell in der chinesischen Sprache.

KI-Modell-Benchmarks SuperCLUE

Ein professioneller Bewertungsrahmen, der standardisierte Benchmarks zur Messung der Intelligenz und des Nutzens chinesischsprachiger KI-Modelle bietet.

KI-Modell-Benchmarks CMMLU

Ein umfassender Bewertungsmaßstab zur Messung des allgemeinen Wissens und der sprachlichen Fähigkeiten großer Sprachmodelle im Chinesischen.