DeepSeek Coder:让代码自行编写
DeepSeek Coder是一系列从零开始训练的代码语言模型,这些模型在87%的代码和13%的自然语言(中英文)上进行了训练。每个模型都在2T令牌上进行了预训练。它们提供了不同大小的代码模型,从1B到33B版本不等。这些模型在代码库上使用16K窗口大小进行预训练,并进行了额外的填空任务,从而得到了基础模型(DeepSeek-Coder-Base)。此外,还使用2B令牌的指令数据对基础模型进行了微调,得到了名为DeepSeek-Coder-Instruct的指令调整模型。
DeepSeek Coder在多个与编码相关的基准测试中表现出色,其性能优于现有的开源代码LLM。例如,DeepSeek-Coder-Base-33B在HumanEval Python、HumanEval Multilingual、MBPP和DS-1000上的表现分别领先CodeLLama-34B 7.9%、9.3%、10.8%和5.9%。此外,DeepSeek-Coder-Instruct-33B模型在经过指令调整后,在HumanEval上的表现超过了GPT-3.5-turbo,并在MBPP上与之相当。获取更多前沿科技信息访问:https://byteclicks.com
该网站还提供了如何使用DeepSeek Coder的指南,包括尝试该模型的链接、更多细节和评估的GitHub链接,以及模型权重的HuggingFace链接。
了解更多:https://deepseekcoder.github.io