LLM 평가 - AIToolsFly

AI 모델 벤치마크 AGI-Eval

AGI-Eval은 다양한 AI 대규모 언어 모델의 기능과 성능을 벤치마킹하기 위해 설계된 전문 평가 커뮤니티입니다.

H2O.ai에서 개발한 고급 평가 시스템으로, Elo 레이팅 방법론을 활용하여 대규모 언어 모델(LLM)의 성능을 벤치마킹하고 순위를 매깁니다.

푸단대학교 자연어 처리 연구소에서 대규모 언어 모델의 성능과 신뢰성을 측정하기 위해 설계한 전문 평가 벤치마크입니다.

스탠포드 대학교에서 개발한 대규모 언어 모델의 성능과 안전성을 측정하기 위한 표준화되고 종합적인 평가 프레임워크입니다.

OpenCompass는 상하이 AI 연구소에서 개발한 오픈 소스 평가 프레임워크로, 대규모 언어 모델에 대한 표준화되고 포괄적인 벤치마킹을 제공합니다.

베이징 인공지능 연구원(BAAI)에서 LLM 벤치마킹을 표준화하고 확장하기 위해 개발한 오픈 소스 평가 프레임워크입니다.

MMLU는 광범위한 분야에 걸쳐 대규모 언어 모델의 일반 지식 및 문제 해결 능력을 평가하기 위해 설계된 종합적인 벤치마크입니다.

중국어에 특화된 대규모 언어 모델(LLM)의 지식 및 역량을 평가하기 위해 설계된 종합적인 평가 도구 모음입니다.

중국어 AI 모델의 지능과 유용성을 측정하기 위한 표준화된 기준을 제공하는 전문 평가 프레임워크.

중국어 대규모 언어 모델의 일반 지식 및 언어 능력을 측정하기 위해 설계된 종합 평가 기준입니다.