這是復旦大學自然語言處理實驗室設計的專業評估基準,旨在衡量大型語言模型的性能和可靠性。
史丹佛大學開發的標準化、整體評估框架,旨在衡量大型語言模型的性能和安全性。
OpenCompass 是由上海人工智慧實驗室開發的開源評估框架,旨在為大型語言模型提供標準化、全面的基準測試。
北京人工智慧研究院(BAAI)開發的開源評估框架,用於標準化和擴展LLM基準測試。
MMLU 是一個綜合性的基準測試,旨在評估大型語言模型在眾多學科領域的通用知識和問題解決能力。
一套綜合評估工具,旨在評估大型語言模型(LLM)在中文的知識和能力。
一個專業的評估框架,提供標準化的基準來衡量中文人工智慧模型的智慧和實用性。
一個綜合評估基準,旨在衡量大型語言模型在中文方面的通用知識和語言能力。