搞定千亿参数，训练时间不到一半，微软全新工具催生超级NLP模型

机器之心报道

机器之心编辑部

GPU 显存一直是训练先进深度学习模型的最大瓶颈大规模训练经常会碰到模型参数太多，显存无法容纳的情况。

最近，微软提出的全新方法 DeepSpeed 将每个节点的批处理大小增大了 4 倍，而训练时间减少到原来的 1/3，新的工具兼容深度学习框架 PyTorch。这一研究会成为深度学习发展的重要一步吗？

DeepSpeed 的强大性能也催生了全新的语言生成模型：微软同时发布了一款参数量高达 170 亿的模型 T-NLG，它在多项任务中打破了以往由 GPT-2 等保持的业内最佳记录。

Turing-NLG：170 亿参数，史上最大的 NLG 模型

在现有的 NLP 模型中，Turing Natural Language Generation（T-NLG）的参数量远超其他。

诸如 BERT 和 GPT-2 这样的深度学习语言模型已经在大部分 NLP 下游任务中实现了 SOTA，包括问答、对话代理和文档理解等。表现良好的自然语言生成（NLG）模型可以部署到多种应用程序，比如帮助作者进行内容撰写，可节省用户时间的长文本总结功能，或者使用智能助手改善用户体验等等。

近日，微软在最新的博客文章中介绍了史上最大的 NLG 模型「T-NLG」，参数量达到 170 亿。在各项语言模型基准上，T-NLG 均实现了 SOTA 表现，同时在问答和总结这样的实际任务中也表现出色。

模型架构

T-NLG 是基于 Transformer 的语言生成模型，这意味着它能够生成单词来完成开放式文本任务。除了补全不完整的句子以外，它还可以针对问题生成直接答案以及针对输入文档生成摘要等。

模型越大，预训练数据也会更加多样及复杂，即使训练实例比较少，它也可以在下游任务的扩展中拥有良好表现。因此，训练一个大型集中式多任务模型并在多种任务中共享功能，会比针对每个任务单独训练新模型要更高效一些。