BERT 系列模型

BERT 模型

BERT简介

BERT是2018年10月由Google AI研究院提出的一种预训练模型。

BERT的全称是Bidirectional Encoder Representation from Transformers
BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出SOTA表现。包括将GLUE基准推高至80.4%（绝对改进7.6%），MultiNLI准确度达到86.7%（绝对改进5.6%），成为NLP发展史上的里程碑式的模型成就

BERT的架构

总体架构：BERT采用Transformer Encoder block进行连接，是一个典型的双向编码模型

从架构图中可以看到，宏观上BERT分三个主要模块：

最底层的Embedding模块
中间层的Transformer模块
最上层的预微调模块

Embedding模块

BERT中的该模块是由三种Embedding共同组成而成：

Token Embeddings：词嵌入张量，第一个单词是CLS标志，可以用于之后的分类任务
Segment Embeddings：句子分段嵌入张量，是为了服务后续的两个句子为输入的预训练任务
Position Embeddings：位置编码张量，此处注意和传统的Transformer不同，不是三角函数计算的固定位置编码，而是通过学习得出来的
整个Embedding模块的输出张量就是这3个张量的直接加和结果

双向Transformer模块

BERT中只使用了经典Transformer架构中的Encoder部分，完全舍弃了Decoder部分。而两大预训练任务也集中体现在训练Transformer模块中

预微调模块

经过中间层Transformer的处理后，BERT的最后一层根据任务的不同需求而做不同的调整即可
比如对于sequence-level的分类任务，BERT直接取第一个[CLS] token的final hidden state，再加一层全连接层后进行softmax来预测最终的标签

对于不同的任务，微调都集中在预微调层，几种重要的NLP微调任务包括：

句子对关系判断
单文本主题分类
问答任务（QA）
单句贴标签（NER）

若干可选的超参数建议：

Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Epochs: 3, 4

BERT的预训练任务

BERT包含两个预训练任务：

任务一：Masked LM（带mask的语言模型训练）
任务二：Next Sentence Prediction（下一句话预测任务）

Masked LM

带mask的语言模型训练

关于传统的语言模型训练，都是采用left-to-right，或者left-to-right + right-to-left结合的方式，但这种单向方式或者拼接的方式提取特征的能力有限。为此BERT提出一个深度双向表达模型（deep bidirectional representation），即采用MASK任务来训练模型
在原始训练文本中，随机的抽取15%的token作为参与MASK任务的对象
在这些被选中的token中，数据生成器并不是把它们全部变成[MASK]，而是有下列3种情况：
- 80%的概率：用[MASK]标记替换该token，比如 my dog is hairy -> my dog is [MASK]
- 10%的概率：用一个随机的单词替换token，比如 my dog is hairy -> my dog is apple
- 10%的概率：保持该token不变，比如 my dog is hairy -> my dog is hairy
模型在训练的过程中，并不知道它将要预测哪些单词？哪些单词是原始的样子？哪些单词被遮掩成了[MASK]？哪些单词被替换成了其他单词？正是在这样一种高度不确定的情况下，反倒逼着模型快速学习该token的分布式上下文的语义，尽最大努力学习原始语言说话的样子。同时因为原始文本中只有15%的token参与了MASK操作，并不会破坏原语言的表达能力和语言规则

Next Sentence Prediction

下一句话预测任务

在NLP中有一类重要的问题比如QA（Question-Answer），NLI（Natural Language Inference），需要模型能够很好的理解两个句子之间的关系，从而需要在模型的训练中引入对应的任务。在BERT中引入的就是Next Sentence Prediction任务。采用的方式是输入句子对（A, B），模型来预测句子B是不是句子A的真实的下一句话
所有参与任务训练的语句都被选中作为句子A：
- 其中50%的B是原始文本中真实跟随A的下一句话（标记为IsNext，代表正样本）
- 其中50%的B是原始文本中随机抽取的一句话（标记为NotNext，代表负样本）
在任务二中，BERT模型可以在测试集上取得97%-98%的准确率

BERT 模型特点

BERT的优点

通过预训练，加上Fine-tunning，在11项NLP任务上取得最优结果
BERT的根基源于Transformer，相比传统RNN更加高效，可以并行化处理同时能捕捉长距离的语义和结构依赖
BERT采用了Transformer架构中的Encoder模块，不仅仅获得了真正意义上的bidirectional context，而且为后续微调任务留出了足够的调整空间

BERT的缺点

BERT模型过于庞大，参数太多，不利于资源紧张的应用场景，也不利于上线的实时处理
BERT目前给出的中文模型中，是以字为基本token单位的，很多需要词向量的应用无法直接使用。同时该模型无法识别很多生僻词，只能以UNK代替
BERT中第一个预训练任务MLM中，[MASK]标记只在训练阶段出现，而在预测阶段不会出现，这就造成了一定的信息偏差，因此训练时不能过多的使用[MASK]，否则会影响模型的表现
按照BERT的MLM任务中的约定，每个batch数据中只有15%的token参与了训练，被模型学习和预测，所以BERT收敛的速度比left-to-right模型要慢很多（left-to-right模型中每一个token都会参与训练）

BERT的MLM任务中为什么采用了80%、10%、10%的策略？

首先，如果所有参与训练的token被100%的[MASK]，那么在fine-tunning的时候所有单词都是已知的，不存在[MASK]，那么模型就只能根据其他token的信息和语序结构来预测当前词，而无法利用到这个词本身的信息，因为它们从未出现在训练过程中，等于模型从未接触到它们的信息，等于整个语义空间损失了部分信息。采用80%的概率下应用[MASK]，既可以让模型去学着预测这些单词，又以20%的概率保留了语义信息展示给模型
保留下来的信息如果全部使用原始token，那么模型在预训练的时候可能会偷懒，直接照抄当前token信息。采用10%概率下random token来随机替换当前token，会让模型不能去死记硬背当前的token，而去尽力学习单词周边的语义表达和远距离的信息依赖，尝试建模完整的语言信息
最后再以10%的概率保留原始的token，意义就是保留语言本来的面貌，让信息不至于完全被遮掩，使得模型可以"看清"真实的语言面貌

BERT处理长文本的方法

首选要明确一点，BERT预训练模型所接收的最大sequence长度是512。

那么对于长文本（文本长度超过512的句子），就需要特殊的方式来构造训练样本。核心就是如何进行截断：

head-only方式：这是只保留长文本头部信息的截断方式，具体为保存前510个token（要留两个位置给[CLS]和[SEP]）
tail-only方式：这是只保留长文本尾部信息的截断方式，具体为保存最后510个token（要留两个位置给[CLS]和[SEP]）
head+tail方式：选择前128个token和最后382个token（文本总长度在800以内），或者前256个token和最后254个token（文本总长度大于800）

BERT 系列模型介绍

ALBERT 模型

ALBERT模型的架构

ALBERT（A Lite BERT）是BERT的轻量级版本，通过参数共享和分解嵌入技术大大减少了模型的参数量

ALBERT模型的优化点

跨层参数共享：所有Transformer层使用相同的参数，大大减少了模型参数量
嵌入参数分解：将大的嵌入矩阵分解为两个小的矩阵，降低参数量
句子顺序预测：用句子顺序预测任务替代NSP任务

RoBERTa 模型

RoBERTa模型的架构

RoBERTa（Robustly optimized BERT approach）是BERT的优化版本，通过调整训练策略获得了更好的性能

RoBERTa模型的优化点

动态掩码：每次向模型输入数据时动态生成掩码模式
去除NSP任务：发现NSP任务对某些任务没有帮助，因此去除
更大的批次和更长训练时间：使用更大的批次和更长的训练时间
更长的训练序列：使用更长的序列进行训练

MacBERT 模型

MacBERT模型的架构

MacBERT（Modified BERT with an improved mask strategy）是BERT的改进版本，通过改进掩码策略提升性能

MacBERT模型的优化点

改进的掩码策略：使用更合理的单词替换策略
多任务学习：同时训练多个相关任务

MacBERT模型的优化点

语法感知预训练：引入语法相关的预训练任务
自适应掩码：根据上下文自适应选择掩码位置

SpanBERT 模型

SpanBERT模型的架构

SpanBERT是BERT的改进版本，专注于span级别的预测任务

Span Masking

Span Masking随机mask连续的span（片段），而不是单个token
这使得模型能够学习到更长的上下文依赖关系

Span Boundary Objective（SBO）

SBO任务是让模型预测span边界处的token表示
这有助于模型更好地学习span级别的表示

NSP任务反思

SpanBERT发现NSP任务对某些任务没有帮助，因此去除该任务
这与RoBERTa的发现一致

ELMo 模型介绍

ELMo模型简介

ELMo（Embeddings from Language Models）是2018年提出的基于双向LSTM的预训练模型

ELMo采用双向LSTM结构，通过前向和后向语言模型来学习词的上下文表示
ELMo能够根据不同的上下文生成不同的词向量，解决了传统词向量无法处理一词多义的问题

ELMo模型特点

动态词向量：ELMo生成的词向量依赖于上下文，同一个词在不同上下文中会有不同的表示
深层双向表示：通过堆叠多层双向LSTM，捕获不同层次的语言信息
任务自适应：ELMo可以根据下游任务的不同，自适应地调整各层权重的组合

ELMo与BERT的区别

架构不同：ELMo使用双向LSTM，BERT使用Transformer Encoder
预训练任务不同：ELMo使用标准的语言模型任务，BERT使用MLM和NSP任务
双向性不同：ELMo是浅层双向（分别训练前向和后向），BERT是深层双向

GPT 模型介绍

GPT模型简介

GPT（Generative Pre-trained Transformer）是OpenAI提出的基于Transformer Decoder的预训练模型

GPT采用Transformer的Decoder部分，是一个单向的自回归语言模型
GPT通过从左到右的方式预测下一个token，学习语言的生成能力

GPT模型特点

单向自回归：GPT只能看到左边的上下文，无法利用右边的信息
生成能力强：由于训练目标与文本生成一致，GPT在生成任务上表现优异
大规模预训练：GPT系列模型不断扩大规模，提升性能

GPT与BERT的区别

架构不同：GPT使用Transformer Decoder，BERT使用Transformer Encoder
双向性不同：GPT是单向的（从左到右），BERT是双向的
适用任务不同：GPT更适合生成任务，BERT更适合理解任务

模型的对比

模型架构对比

模型	架构	双向性	预训练任务
ELMo	双向LSTM	浅层双向	前向+后向LM
GPT	Transformer Decoder	单向（左到右）	语言模型
BERT	Transformer Encoder	深层双向	MLM + NSP

核心区别

ELMo vs BERT

ELMo：
- 使用LSTM作为基础结构
- 通过拼接前向和后向LSTM实现双向性
- 预训练任务是标准的语言模型
- 特征可以灵活地与下游任务结合
BERT：
- 使用Transformer Encoder作为基础结构
- 天然支持深层双向性
- 预训练任务是MLM和NSP
- 需要通过fine-tuning来适配下游任务

GPT vs BERT

GPT：
- 使用Transformer Decoder作为基础结构
- 单向自回归，从左到右预测
- 适用于文本生成任务
- 无法看到未来的上下文
BERT：
- 使用Transformer Encoder作为基础结构
- 双向，可以同时看到左右上下文
- 适用于文本理解任务
- 预训练时使用MASK机制

适用场景

ELMo：适用于需要灵活特征表示的任务，可以与各种架构结合
GPT：适用于文本生成、对话系统等需要生成能力的任务
BERT：适用于文本分类、命名实体识别、问答等理解类任务

版权所有

许可证：署名 4.0 国际 (CC-BY-4.0)