A comprehensive evaluation suite designed to assess the knowledge and capabilities of large language models (LLMs) specifically in the Chinese language.
PubMedQA é um conjunto de dados especializado em perguntas e respostas biomédicas e um ranking usado para avaliar a precisão de modelos de IA no domínio médico.