AI 모델 벤치마크 OpenCompass OpenCompass는 상하이 AI 연구소에서 개발한 오픈 소스 평가 프레임워크로, 대규모 언어 모델에 대한 표준화되고 포괄적인 벤치마킹을 제공합니다.
AI 모델 벤치마크 FlagEval An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.
AI 모델 벤치마크 LMArena A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.
AI 모델 벤치마크 Open LLM Leaderboard Hugging Face에서 개발한 커뮤니티 주도형 종합 벤치마크 플랫폼으로, 오픈 소스 대규모 언어 모델의 성능을 추적하고 비교합니다.
AI 모델 벤치마크 CMMLU A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.