特に中国語における大規模言語モデル(LLM)の知識と能力を評価するために設計された、包括的な評価スイート。
中国語における大規模言語モデルの一般知識と言語能力を測定するために設計された、包括的な評価ベンチマーク。