PubMedQA

186 浏览量

概述

PubMedQA 是一个专业级基准测试平台，旨在评估大型语言模型 (LLM) 和专用人工智能系统在生物医学研究领域的性能。它利用从 PubMed 摘要中提取的高质量问答对数据集，为人工智能综合复杂医学信息并提供准确、基于证据的答案的能力提供了一个严格的测试平台。

PubMedQA 主要是一个基准测试工具和数据集，而非面向消费者的医疗诊断工具。用户应注意，此排行榜上的模型得分仅代表其在特定数据集上的总体性能，可能无法反映其在所有实际临床场景下的准确性。访问完整数据集可能需要遵守特定的研究许可协议。

免责声明：功能、数据集版本和排行榜排名可能会随时间而变化。请访问 PubMedQA 官方网站查看最新数据。

信息可能不完整或已过时；请在官方网站上确认详细信息。

结尾

2023年10月29日

0

复制说明：内容可能来源于第三方，并经人工智能辅助处理。我们不保证其准确性。所有商标均归其各自所有者所有。

触手AI艺术

CMMLU

评论（暂无评论）