BERT、GPT、ELMo 模型的对比

模型	架构	双向性	预训练任务
ELMo	双向LSTM	浅层双向	前向+后向LM
GPT	Transformer Decoder	单向（左到右）	语言模型
BERT	Transformer Encoder	深层双向	MLM + NSP

ELMo：
- 使用LSTM作为基础结构
- 通过拼接前向和后向LSTM实现双向性
- 预训练任务是标准的语言模型
- 特征可以灵活地与下游任务结合
BERT：
- 使用Transformer Encoder作为基础结构
- 天然支持深层双向性
- 预训练任务是MLM和NSP
- 需要通过fine-tuning来适配下游任务

GPT：
- 使用Transformer Decoder作为基础结构
- 单向自回归，从左到右预测
- 适用于文本生成任务
- 无法看到未来的上下文
BERT：
- 使用Transformer Encoder作为基础结构
- 双向，可以同时看到左右上下文
- 适用于文本理解任务
- 预训练时使用MASK机制