개요
MMLU(Measuring Massive Multitask Language Understanding)는 대규모 언어 모델(LLM)의 일반 지능을 평가하는 데 널리 사용되는 벤치마크 중 하나입니다. 협소한 분야의 테스트와 달리, MMLU는 STEM, 인문학, 사회과학 등 57개 분야에 걸쳐 모델의 문제 해결 능력을 평가합니다.
핵심 역량
- 광범위한 영역 범위: 수학, 역사, 컴퓨터 과학, 법학, 의학 등 다양한 분야의 지식을 평가합니다.
- 제로샷 및 퓨샷 평가: 연구자들이 특정 작업에 대한 사전 학습 없이 또는 몇 가지 제공된 예제만으로 모델의 성능을 측정할 수 있도록 해줍니다.
- 표준화된 비교: 서로 다른 모델 아키텍처(예: GPT-4, Claude, Llama)의 추론 능력을 비교하기 위한 일관된 측정 기준을 제공합니다.
가장 적합한 대상
MMLU는 주로 모델의 세계 지식 및 언어적 추론 능력에 대한 엄격하고 학술적인 수준의 평가가 필요한 AI 연구원, 개발자 및 모델 평가자가 사용합니다.
제한 사항 및 고려 사항
MMLU는 일반 지식을 측정하는 강력한 지표이지만, 주로 객관식 문제 위주로 구성되어 있습니다. 따라서 창의적인 콘텐츠 생성 능력, 복잡한 지시 사항 준수 능력, 장기적인 대화 일관성 유지 능력 등을 완벽하게 반영하지 못할 수 있습니다. 또한, 웹 데이터 사용량이 증가함에 따라 벤치마크 문제가 학습 데이터 세트에 포함되어 데이터 오염이 발생할 위험도 있습니다.
면책 조항: 벤치마크 지표 및 평가 방법론은 변경될 수 있습니다. 최신 순위표 및 문서는 Papers with Code 공식 웹사이트 또는 학술 저장소에서 확인하십시오.
정보가 불완전하거나 오래되었을 수 있으므로 공식 웹사이트에서 자세한 내용을 확인하십시오.
끝