模仿人类语言?微软和英伟达刚刚完成世界最大人工智能语言模型
NVIDIA和微软联合推出了训练的最强大的单芯片 Transformer语言模型:Megatron-Turing (MT-NLP)。完成建起来了的惊人5300 亿参数。
MT-NLG 优于两家公司先前基于Transformer的系统。MT-NLG 比 Microsoft 的 Turing-NLG 模型和 Nvidia 的 Megatron-LM 大得多,也更复杂,分布在 105 层的参数是其三倍。
作为 Turing NLG 17B 和 Megatron-LM 的继承者,MT-NLG 在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等广泛的自然语言任务中取得了无与伦比的准确性。
世界上最大最强大的生成语言模型之一
MLT-NLG 在 Microsoft Azure NDv4 和 Nvidia 的 Selene 机器学习超级计算机上进行了训练,该计算机由 560 个 DGX A100 服务器组成,每个服务器有 8 个 A100 80GB GPU,在一个称为 The Pile 的海量数据集上。该模型由多个较小的数据集组成,总计 825 GB 从互联网上获得的文本。这些来源的范围从维基百科文章和学术期刊库到新闻片段。
多亏了这一切,MT-NLG 在广泛的自然语言任务中优于其以前的语言模型,包括自动完成短语、回答、阅读和推理。它还可以在几乎没有微调的情况下完成类似的任务,这个过程被称为少样本或零样本学习。
由于用于训练模型的大量数据,研究人员一直无法清理不应该使用的单词数据集。虽然大规模语言模型推动了语言生成技术的发展,但它们也存在偏见、有害性等问题。微软和英伟达表示,MT-NLG 模型从它所训练的数据中提取了刻板印象和偏见。
微软和英伟达的研究人员致力于解决这个问题,虽然尚不清楚 MT-NLG 是否会商用。
今天,人工智能技术的进步正在超越摩尔定律的极限。新一代的 GPU 以闪电般的速度互连,不断升级算力。与此同时,AI 模型的扩展带来了更好的性能,而且似乎前景无限。微软和英伟达表示,DeepSpeed 和 Megatron-LM 的创新将助力未来更多的 AI 模型开发,并使大型 AI 模型的训练成本更低、速度更快。获取更多前沿科技 研究进展 访问:https://byteclicks.com
