外观
ELMo 模型介绍
学习目标
- 了解ELMo模型的原理
- 掌握ELMo模型的特点
- 理解ELMo模型与BERT的区别
1 ELMo模型简介
ELMo(Embeddings from Language Models)是2018年提出的基于双向LSTM的预训练模型
- ELMo采用双向LSTM结构,通过前向和后向语言模型来学习词的上下文表示
- ELMo能够根据不同的上下文生成不同的词向量,解决了传统词向量无法处理一词多义的问题
2 ELMo模型特点
- 动态词向量:ELMo生成的词向量依赖于上下文,同一个词在不同上下文中会有不同的表示
- 深层双向表示:通过堆叠多层双向LSTM,捕获不同层次的语言信息
- 任务自适应:ELMo可以根据下游任务的不同,自适应地调整各层权重的组合
3 ELMo与BERT的区别
- 架构不同:ELMo使用双向LSTM,BERT使用Transformer Encoder
- 预训练任务不同:ELMo使用标准的语言模型任务,BERT使用MLM和NSP任务
- 双向性不同:ELMo是浅层双向(分别训练前向和后向),BERT是深层双向