AI 모델 벤치마크 H2O EvalGPT H2O.ai에서 개발한 고급 평가 시스템으로, Elo 레이팅 방법론을 활용하여 대규모 언어 모델(LLM)의 성능을 벤치마킹하고 순위를 매깁니다.
AI 모델 벤치마크 오픈컴퍼스 OpenCompass는 상하이 AI 연구소에서 개발한 오픈 소스 평가 프레임워크로, 대규모 언어 모델에 대한 표준화되고 포괄적인 벤치마킹을 제공합니다.