舵

109 瀏覽量

概述

HELM（語言模型整體評估）是由史丹佛大學基礎模型研究中心 (CRFM) 開發的一套嚴謹的基準測試框架。與僅關注單一指標的傳統基準測試不同，HELM 提供對語言模型的多維度分析，確保在各種場景和安全標準下評估其效能。

HELM 非常適合人工智慧研究人員、模型開發人員和企業採購團隊，他們需要在部署之前對模型的可靠性和安全性進行客觀的、學術層級的評估。

由於 HELM 是一個綜合性的學術框架，它可能無法反映每日更新的模型的即時性能。此外，其評估的深度也使得解析起來比簡單的排行榜更耗時。

免責聲明：功能和評估指標可能會有所變更。請造訪史丹佛大學 CRFM 官方網站查看最新基準測試結果。

資訊可能不完整或過時；請在官方網站上確認詳細資訊。

結尾

2023年10月29日

0

複製說明：內容可能來自第三方，並經人工智慧輔助處理。我們不保證其準確性。所有商標均為其各自所有者所有。

OpenCompass

MMBench

評論（暫無評論）