A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.
A professional evaluation framework providing standardized benchmarks to measure the intelligence and utility of Chinese-language Modelli di intelligenza artificiale.
PubMedQA è un dataset specializzato in ambito biomedico, con relativa classifica, utilizzato per valutare l'accuratezza dei modelli di intelligenza artificiale in campo medico.