IBM和NASA构建语言模型,让科学知识更容易获取
IBM和NASA合作开发了一种基于Transformer架构的高效语言模型。这些模型在自然语言理解任务中表现优异,可以用于分类、实体提取、问答和信息检索等多种应用。为了造福科学和学术界,这些模型被开源发布。
这些模型接受了大量的科学文献训练,使用了包括天体物理学、行星科学、地球科学、太阳物理学以及生物和物理科学等领域的600亿个tokens。这些模型特别擅长处理科学领域的专业术语,如“磷脂酰胆碱”等。
IBM-NASA模型在特定领域词汇训练方面表现优异,相比开放RoBERTa模型,在BLURB基准上高出5%,在内部科学问答基准的F1分数提高了2.4%,在内部地球科学实体识别测试的F1分数提高了5.5%。获取更多前沿科技信息访问:https://byteclicks.com
这些模型还可以通过检索增强生成(RAG)生成信息丰富的嵌入,用于文档检索。这些模型在NASA策划的包含约400个问题的测试集中表现优异,性能提升了6.5%,与另一种流行的嵌入开源模型BGE-base相比,性能提升了5%。
这些模型的成功归功于专门的训练数据、自定义分词器和训练方法。这些模型的开源发布,与IBM和NASA对开放透明AI的承诺相一致,可以进一步促进空间领域的应用发展,也可以用于信息检索应用,提高科学搜索引擎的性能。