NVIDIA开源3400亿参数模型Nemotron-4 340B
美国英伟达公司宣布开源Nemotron-4 340B(3400亿参数)系列模型。Nemotron-4 340B包括基础模型Base、指令模型Instruct和奖励模型Reward,并构建了一个高质量合成数据生成的完整流程。模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。指令模型的训练是在98%的合成数据上完成的。据英伟达介绍,开发人员可使用该系列模型生成合成数据来训练大语言模型,用于医疗保健、金融、制造、零售和其他行业的商业应用。
主要信息
- 模型家族介绍:Nemotron-4 340B模型家族包括三个子模型,分别是Base、Instruct和Reward版本。
- 开源许可:这些模型在NVIDIA开放模型许可协议下开放使用,允许分发和修改。
- 性能表现:在多个评估基准上表现优异,适合在单个DGX H100上部署。
- 合成数据生成:模型对齐过程中98%以上的数据为合成生成,展示其生成能力。
- 支持开放研究:开源合成数据生成管道,促进研究和模型开发。