哈工大刘挺:怎么训练一个更强大的中文语言模型?

之前我和朋友参加了CCKS机器阅读理解比赛,查资料时发现哈工大崔一鸣、车万翔、刘挺等人提出了一个针对中文的预训练语言模型MacBERT,刷新了众多下游任务的 SOTA。
 
我们在比赛中实测了MacBERT,提分显著,最终在246支参赛队伍中获得了第3。
 
本文来带你了解这项更强大的中文语言模型 MacBERT。
 
论文链接
 
https://arxiv.org/pdf/2004.13922.pdf
 
开源权重
 
https://github.com/ymcui/MacBERT
 
MacBERT是什么?
 
我们先简单回顾一下什么是BERT。
 
BERT本质上是一个自编码语言模型,为了见多识广,BERT使用3亿多词语训练,采用12层双向Transformer架构。注意,BERT只使用了Transformer的编码器部分,可以理解为BERT旨在学习庞大文本的内部语义信息。
 
具体训练目标之一,是被称为掩码语言模型的MLM。即输入一句话,给其中15%的字打上“mask”标记,经过Embedding和12层Transformer深度理解,来预测“mask”标记的地方原本是哪个字。

dawei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注