一个开源医学领域语言模型,可提供高性能的医学问答和信息检索服务
PMC-LLaMA:一个开源的医学领域语言模型,可提供高性能的医学问答和信息检索服务。
使用LLaMA 架构,在大约 480 万篇生物医学学术论文上进行了微调。
其主要版本包括 MedLLaMA_13B 和 PMC_LLaMA_13B,其中 MedLLaMA_13B 是在医学文献和书籍上预训练的,而 PMC_LLaMA_13B 是在此基础上进一步微调的。
PMC_LLaMA_13B:
1、模型规模扩大到了 130 亿(13B)参数。
2、在知识注入阶段,添加了 3 万本医学书籍。
3、在一个包含 2.02 亿(202M)标记的大规模数据集上进行了指令调优。
通过在三个生物医学问答数据集(包括PubMedQA、MedMCQA和USMLE)上的初步评估,研究人员发现PMC-LLaMA在问答基准测试上表现出更好的理解和高性能。
该模型的微调过程使用了AdamW优化器和特定的学习率,以及一种名为全分片数据并行(FSDP)的加速策略。模型在大约7天内完成了5个周期的训练。
通过与原始的 LLaMA 模型的比较,研究证明了 PMC-LLaMA 在医学领域具有更高的适用性,尤其是在医学相关句子完成任务上。
GitHub:https://github.com/chaoyi-wu/PMC-LLaMA/
Huggingface:https://huggingface.co/axiong/PMC_LLaMA_13B
数据集:https://huggingface.co/datasets/axiong/pmc_llama_instructions