ELMo 模型介绍

学习目标

了解ELMo模型的原理
掌握ELMo模型的特点
理解ELMo模型与BERT的区别

1 ELMo模型简介

ELMo（Embeddings from Language Models）是2018年提出的基于双向LSTM的预训练模型

ELMo采用双向LSTM结构，通过前向和后向语言模型来学习词的上下文表示
ELMo能够根据不同的上下文生成不同的词向量，解决了传统词向量无法处理一词多义的问题

2 ELMo模型特点

动态词向量：ELMo生成的词向量依赖于上下文，同一个词在不同上下文中会有不同的表示
深层双向表示：通过堆叠多层双向LSTM，捕获不同层次的语言信息
任务自适应：ELMo可以根据下游任务的不同，自适应地调整各层权重的组合

3 ELMo与BERT的区别

架构不同：ELMo使用双向LSTM，BERT使用Transformer Encoder
预训练任务不同：ELMo使用标准的语言模型任务，BERT使用MLM和NSP任务
双向性不同：ELMo是浅层双向（分别训练前向和后向），BERT是深层双向

版权所有

许可证：署名 4.0 国际 (CC-BY-4.0)