MMLU

85 瀏覽量

概述

MMLU（大規模多任務語言理解能力測試）是評估大型語言模型（LLM）通用智慧最廣泛認可的基準測試之一。與範圍較窄的測驗不同，MMLU 評估模型解決涵蓋 STEM、人文、社會科學等 57 個不同學科問題的能力。

MMLU 主要供人工智慧研究人員、開發人員和模型評估人員使用，他們需要對模型的世界知識和語言推理能力進行嚴格的學術級評估。

雖然 MMLU 是衡量通用知識水準的有效指標，但它本質上是一種多項選擇題測驗。這意味著它可能無法全面反映模型生成創意內容、理解複雜指令或維持長期對話連貫性的能力。此外，隨著模型使用更多網路資料進行訓練，基準測試題目出現在訓練集中，有資料污染的風險。

免責聲明：基準指標和評估方法可能會有所變化。請在 Papers with Code 官方平台或學術儲存庫中查看最新的排行榜和文件。

資訊可能不完整或過時；請在官方網站上確認詳細資訊。

結尾

2023年10月29日

0

複製說明：內容可能來自第三方，並經人工智慧輔助處理。我們不保證其準確性。所有商標均為其各自所有者所有。

C-Eval

LMArena

評論（暫無評論）