一套綜合評估工具,旨在評估大型語言模型(LLM)在中文的知識和能力。
一個專業的評估框架,提供標準化的基準來衡量中文人工智慧模型的智慧和實用性。
Hugging Face 開發的綜合性、社群驅動型基準測試平台,用於追蹤和比較開源大型語言模型的效能。
一個綜合評估基準,旨在衡量大型語言模型在中文方面的通用知識和語言能力。
PubMedQA 是專門用於衡量醫學領域人工智慧模型準確性的生物醫學問答資料集和排行榜。