KI-Modell-Benchmarks

KI-Modell-Benchmarks C-Eval

Ein umfassendes Evaluierungssystem zur Beurteilung des Wissens und der Fähigkeiten großer Sprachmodelle (LLMs) speziell in der chinesischen Sprache.

KI-Modell-Benchmarks SuperCLUE

Ein professioneller Bewertungsrahmen, der standardisierte Benchmarks zur Messung der Intelligenz und des Nutzens chinesischsprachiger KI-Modelle bietet.

KI-Modell-Benchmarks Open LLM-Rangliste

Eine umfassende, gemeinschaftlich getragene Benchmark-Plattform von Hugging Face zum Verfolgen und Vergleichen der Leistungsfähigkeit von Open-Source-Sprachmodellen für große Systeme.

KI-Modell-Benchmarks CMMLU

Ein umfassender Bewertungsmaßstab zur Messung des allgemeinen Wissens und der sprachlichen Fähigkeiten großer Sprachmodelle im Chinesischen.

KI-Modell-Benchmarks PubMedQA

PubMedQA ist ein spezialisierter Datensatz und eine Rangliste für biomedizinische Frage-Antwort-Systeme, die zur Bewertung der Genauigkeit von KI-Modellen im medizinischen Bereich verwendet werden.