C-Eval

93 瀏覽量

概述

C-Eval 是一項專業的評估基準，旨在衡量基礎模型在各種漢語任務中的表現。與簡單的基準不同，C-Eval 專注於對知識進行多維度評估，涵蓋多個學術領域和專業領域，為 LLM 的開發提供嚴格的標準。

C-Eval 主要針對人工智慧研究人員、模型開發人員和資料科學家，他們正在為中國市場建立或微調大型語言模型，並且需要可靠的指標來驗證語言和事實的準確性。

作為一項專注於多項選擇題形式的基準測試，C-Eval 可能無法全面反映模型生成長篇創意內容或處理複雜、開放式對話細微差別的能力。使用者應將 C-Eval 的結果與人工評估和其他功能性基準測試結合，以獲得完整的效能評估。

免責聲明：功能和評估指標可能會定期更新。請造訪 C-Eval 官方網站查看最新版本和相關文件。

資訊可能不完整或過時；請在官方網站上確認詳細資訊。

結尾

2023年10月29日

0

複製說明：內容可能來自第三方，並經人工智慧輔助處理。我們不保證其準確性。所有商標均為其各自所有者所有。

超線索

MMLU

評論（暫無評論）