好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

蚂蚁集团开源医疗专科推理数据集RJUA-QA,覆盖97.6%泌尿科患者

蚂蚁集团今日宣布开源首个医疗专科推理数据集。该数据集名为RJUA-QA,由训练、验证和测试三部分组成,包含2132个问答对。每个问答对由医生根据临床经验编写的问题、专家提供的回答以及用于帮助推理的上下文构成。该数据集覆盖了97.6%以上的泌尿科就医人群,旨在真实复刻诊疗场景。

在医疗行业中,通用型语言模型在应对医疗问诊时通常会直接给出答案。然而,医生在诊断过程中会根据专业知识进行反复的症状探讨,才能给出准确的答案。此外,大型语言模型在幻觉问题和推理能力方面存在一定的局限性。目前,高质量的中文医学专科数据集相对较为稀缺,这给训练出色的医疗领域大型语言模型提出了挑战。

为了克服这些难题,蚂蚁集团与上海仁济医院泌尿科专家团队联合研发了RJUA-QA数据集。该数据集基于医生团队的临床经验,通过构造模拟病例数据的方式推出。这也是业内首个临床专科数据集。蚂蚁集团联合医疗专家共同研发了多模态医疗知识引擎,进一步推动中国专业医疗数据集的构建与开放。

RJUA-QA已在GitHub上开源,该数据集的病例数据由专业医生根据临床经验编写而成,不涉及任何医患个人隐私。

上一篇:

下一篇:


标签