好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

DeepSeek Coder:让代码自行编写

DeepSeek Coder是一系列从零开始训练的代码语言模型,这些模型在87%的代码和13%的自然语言(中英文)上进行了训练。每个模型都在2T令牌上进行了预训练。它们提供了不同大小的代码模型,从1B到33B版本不等。这些模型在代码库上使用16K窗口大小进行预训练,并进行了额外的填空任务,从而得到了基础模型(DeepSeek-Coder-Base)。此外,还使用2B令牌的指令数据对基础模型进行了微调,得到了名为DeepSeek-Coder-Instruct的指令调整模型。

DeepSeek Coder在多个与编码相关的基准测试中表现出色,其性能优于现有的开源代码LLM。例如,DeepSeek-Coder-Base-33B在HumanEval Python、HumanEval Multilingual、MBPP和DS-1000上的表现分别领先CodeLLama-34B 7.9%、9.3%、10.8%和5.9%。此外,DeepSeek-Coder-Instruct-33B模型在经过指令调整后,在HumanEval上的表现超过了GPT-3.5-turbo,并在MBPP上与之相当。获取更多前沿科技信息访问:https://byteclicks.com

网站还提供了如何使用DeepSeek Coder的指南,包括尝试该模型的链接、更多细节和评估的GitHub链接,以及模型权重的HuggingFace链接。

了解更多:https://deepseekcoder.github.io

上一篇:

下一篇:


标签