模型測試 - AIToolsFly

人工智慧模型基準測試 LLMEval3

這是復旦大學自然語言處理實驗室設計的專業評估基準，旨在衡量大型語言模型的性能和可靠性。

人工智慧模型基準測試 舵

史丹佛大學開發的標準化、整體評估框架，旨在衡量大型語言模型的性能和安全性。

人工智慧模型基準測試 OpenCompass

OpenCompass 是由上海人工智慧實驗室開發的開源評估框架，旨在為大型語言模型提供標準化、全面的基準測試。

人工智慧模型基準測試 旗幟評估

北京人工智慧研究院（BAAI）開發的開源評估框架，用於標準化和擴展LLM基準測試。

人工智慧模型基準測試 MMLU

MMLU 是一個綜合性的基準測試，旨在評估大型語言模型在眾多學科領域的通用知識和問題解決能力。

人工智慧模型基準測試 C-Eval

一套綜合評估工具，旨在評估大型語言模型（LLM）在中文的知識和能力。

人工智慧模型基準測試 超線索

一個專業的評估框架，提供標準化的基準來衡量中文人工智慧模型的智慧和實用性。

人工智慧模型基準測試 CMMLU

一個綜合評估基準，旨在衡量大型語言模型在中文方面的通用知識和語言能力。