AI模型基準測試 - AIToolsFly

人工智慧模型基準測試 C-Eval

一套綜合評估工具，旨在評估大型語言模型（LLM）在中文的知識和能力。

人工智慧模型基準測試 超線索

一個專業的評估框架，提供標準化的基準來衡量中文人工智慧模型的智慧和實用性。

Open LLM Leaderboard

人工智慧模型基準測試 公開LLM排行榜

Hugging Face 開發的綜合性、社群驅動型基準測試平台，用於追蹤和比較開源大型語言模型的效能。

人工智慧模型基準測試 CMMLU

一個綜合評估基準，旨在衡量大型語言模型在中文方面的通用知識和語言能力。

人工智慧模型基準測試 PubMedQA

PubMedQA 是專門用於衡量醫學領域人工智慧模型準確性的生物醫學問答資料集和排行榜。