哈工大刘挺：怎么训练一个更强大的中文语言模型？

之前我和朋友参加了CCKS机器阅读理解比赛，查资料时发现哈工大崔一鸣、车万翔、刘挺等人提出了一个针对中文的预训练语言模型MacBERT，刷新了众多下游任务的 SOTA。

我们在比赛中实测了MacBERT，提分显著，最终在246支参赛队伍中获得了第3。

本文来带你了解这项更强大的中文语言模型 MacBERT。

论文链接

https://arxiv.org/pdf/2004.13922.pdf

开源权重

https://github.com/ymcui/MacBERT

MacBERT是什么？

我们先简单回顾一下什么是BERT。

BERT本质上是一个自编码语言模型，为了见多识广，BERT使用3亿多词语训练，采用12层双向Transformer架构。注意，BERT只使用了Transformer的编码器部分，可以理解为BERT旨在学习庞大文本的内部语义信息。

具体训练目标之一，是被称为掩码语言模型的MLM。即输入一句话，给其中15%的字打上“mask”标记，经过Embedding和12层Transformer深度理解，来预测“mask”标记的地方原本是哪个字。