푸단대학교 자연어 처리 연구소에서 대규모 언어 모델의 성능과 신뢰성을 측정하기 위해 설계한 전문 평가 벤치마크입니다.
중국어에 특화된 대규모 언어 모델(LLM)의 지식 및 역량을 평가하기 위해 설계된 종합 평가 도구 모음입니다.
중국어 AI 모델의 지능과 유용성을 측정하기 위한 표준화된 기준을 제공하는 전문 평가 프레임워크.