CMMLU

80 瀏覽量

概述

CMMLU 是一個開源評估基準，專門用於評估大型語言模型 (LLM) 在漢語中的表現。與範圍較窄的測驗不同，CMMLU 提供對模型處理複雜語言細微差別和涵蓋廣泛學科的事實知識能力的全面分析，從而確保更全面地了解模型在漢語語境中的智能。

主要能力

多領域評估： 涵蓋廣泛的學科領域，包括人文科學、社會科學、STEM（科學、技術、工程和數學）以及專業認證。
零次評估： 旨在測試模型的固有知識，而無需進行大量的特定任務微調。
標準化指標： 為研究人員和開發人員提供了一個一致的框架，以便客觀地比較不同的LLM。
開源框架： 該基準測試已發佈在 GitHub 上，允許社群在各種環境中進行審核、擴展和實施。

最適合

人工智慧研究人員： 那些專門為中國市場開發或改進LLM的人。
模型審計師： 需要客觀基準來驗證模型的準確性和推理能力的團隊。
學術機構： 研究英語和漢語模型之間跨語言知識遷移的研究人員。

局限性和注意事項

作為基準測試，CMMLU 是一種測量工具，而非功能齊全的 AI 應用。使用者應注意，基準測試得分並不總是與實際使用者體驗完全一致。此外，隨著 LLM 的發展，基準測試可能需要更新，以防止資料外洩（即模型在測試集上進行訓練）。

免責聲明：功能和基準測試版本可能會有所變更。請查閱官方 GitHub 程式碼庫中的最新文件。

資訊可能不完整或過時；請在官方網站上確認詳細資訊。

結尾

人工智慧基準測試中文自然語言處理法學碩士評估模型測試開源

發布至：人工智慧模型基準測試

2023年10月29日

0

版權聲明：我們的原文由…發表行政人員截至 2023 年 10 月 29 日，共 1629 個單字。

複製說明：內容可能來自第三方，並經人工智慧輔助處理。我們不保證其準確性。所有商標均為其各自所有者所有。

PubMedQA

公開LLM排行榜

評論（暫無評論）