外观
GPT 模型介绍
学习目标
- 了解GPT模型的原理
- 掌握GPT模型的特点
- 理解GPT模型与BERT的区别
1 GPT模型简介
GPT(Generative Pre-trained Transformer)是OpenAI提出的基于Transformer Decoder的预训练模型
- GPT采用Transformer的Decoder部分,是一个单向的自回归语言模型
- GPT通过从左到右的方式预测下一个token,学习语言的生成能力
2 GPT模型特点
- 单向自回归:GPT只能看到左边的上下文,无法利用右边的信息
- 生成能力强:由于训练目标与文本生成一致,GPT在生成任务上表现优异
- 大规模预训练:GPT系列模型不断扩大规模,提升性能
3 GPT与BERT的区别
- 架构不同:GPT使用Transformer Decoder,BERT使用Transformer Encoder
- 双向性不同:GPT是单向的(从左到右),BERT是双向的
- 适用任务不同:GPT更适合生成任务,BERT更适合理解任务