AI 분석 및 최적화

AI 모델 벤치마크 MMBench

MMBench는 다양한 시각 및 텍스트 작업에서 멀티모달 대규모 언어 모델의 성능을 측정하도록 설계된 종합적인 평가 프레임워크입니다.

스탠포드 대학교에서 개발한 대규모 언어 모델의 성능과 안전성을 측정하기 위한 표준화되고 종합적인 평가 프레임워크입니다.

OpenCompass는 상하이 AI 연구소에서 개발한 오픈 소스 평가 프레임워크로, 대규모 언어 모델에 대한 표준화되고 포괄적인 벤치마킹을 제공합니다.

An open-source evaluation framework developed by the Beijing Academy of Artificial Intelligence (BAAI) to standardize and scale LLM benchmarking.

A crowdsourced benchmarking platform where users battle-test Large Language Models through blind side-by-side comparisons.

MMLU는 광범위한 분야에 걸쳐 대규모 언어 모델의 일반 지식 및 문제 해결 능력을 평가하기 위해 설계된 종합적인 벤치마크입니다.

중국어에 특화된 대규모 언어 모델(LLM)의 지식 및 역량을 평가하기 위해 설계된 종합 평가 도구 모음입니다.

중국어 AI 모델의 지능과 유용성을 측정하기 위한 표준화된 기준을 제공하는 전문 평가 프레임워크.

Hugging Face에서 개발한 커뮤니티 주도형 종합 벤치마크 플랫폼으로, 오픈 소스 대규모 언어 모델의 성능을 추적하고 비교합니다.

A comprehensive evaluation benchmark designed to measure the general knowledge and linguistic capabilities of Large Language Models in Chinese.