Prompt-Tuning方法

第一范式：基于「传统机器学习模型」的范式，如TF-IDF特征+朴素贝叶斯等机器算法。
第二范式：基于「深度学习模型」的范式，如word2vec特征+LSTM等深度学习算法，相比于第一范式，模型准确有所提高，特征工程的工作也有所减少。
第三范式：基于「预训练模型+fine-tuning」的范式，如Bert+fine-tuning的NLP任务，相比于第二范式，模型准确度显著提高，模型也随之变得更大，但小数据集就可训练出好模型。
第四范式：基于「预训练模型+Prompt+预测」的范式，如Bert+Prompt的范式相比于第三范式，模型训练所需的训练数据显著减少。

Fine-Tuning属于一种迁移学习方式，在自然语言处理（NLP）中，Fine-Tuning是用于将预训练的语言模型适应于特定任务或领域。Fine-Tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型，然后在小规模的任务特定文本上继续训练它。

缺点：

解决方法就是引入 Prompt-Tuning 方法，通过添加模板的方法避免引入额外的参数，从而让模型可以在小样本（few-shot）或着零样本（zero-shot）场景下达到理想的效果。

假设一个句子：

[CLS] I like the Disney films very much. [SEP]

传统的Fine-tuning方法：将其通过BERT模型获得 [CLS] 表征之后再喂入新增加的MLP分类器进行二分类，预测该句子是积极的（positive）还是消极的（negative），因此需要一定量的训练数据来训练。

Prompt-Tuning方法：

构建模板（Template）：生成与给定句子相关的一个含有[MASK]标记的模板。例如It was [MASK]，并拼接到原始的文本中，获得Prompt-Tuning的输入：[CLS] I like the Disney films very much. [SEP] It was [MASK]. [SEP]. 将其喂入BERT模型中，并复用预训练好的MLM分类器，即可直接得到[MASK]预测的各个token的概率分布。
标签词映射（Verbalizer）：因为[MASK]只对部分词感兴趣，因此需要建立一个映射关系。例如如果[MASK]预测的词是“great”，则认为是positive类，如果是“terrible”，则认为是negative类。
训练：根据Verbalizer，则可以获得指定label word的预测概率分布，并采用交叉信息熵进行训练。此时因为只对预训练好的MLM head进行微调，所以避免了过拟合问题。

In-Context learning（ICL）最早在GPT3中提出，旨在从训练集中挑选少量的标注样本，设计任务相关的指令形成提示模板，用于指导测试样本生成相应的结果。

其实Prompt-Tuning本质上是对下游任务的指令，简单的来说：就是告诉模型需要做什么任务，输出什么内容。上文我们提及到的离散或连续的模板，本质上就是一种对任务的提示。

因此，在对大规模模型进行微调时，可以为各种类型的任务定义指令，并进行训练，来提高模型对不同任务的泛化能力。

对比一下。

Prompt：

带女朋友去了一家餐厅，她吃的很开心，这家餐厅太__了。

Instruction：

判断这句话的情感：带女朋友去了一家餐厅，她吃的很开心。选项：A=好，B=一般，C=差

思维链 (Chain-of-thought，CoT) 的概念是在 Google 的论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" 中被首次提出。

思维链（CoT）是一种改进的提示策略，用于提高 LLM 在复杂推理任务中的性能，如算术推理、常识推理和符号推理。

思维链是一种离散式提示学习，更具体地，大模型下的上下文学习（即不进行训练，将例子添加到当前样本输入的前面，让模型一次输入这些文本进行输出完成任务），相比于之前传统的上下文学习（即通过x1,y1,x2,y2,....xtest作为输入来让大模型补全输出ytest），思维链多了中间的推导提示。

以求解一个数学题为例。

无法正确求解，应用思维链方法：

思维链分为两种：

Few-shot CoT：ICL的一种特殊情况，它通过融合CoT推理步骤，将每个演示〈input，output〉扩充为〈input,CoT,output〉
Zero-shot CoT：直接生成推理步骤，然后使用生成的CoT 来导出答案.（其中LLM首先由“Let's thinkstepbystep”提示生成推理步骤，然后由“Therefore,theansweris”提示得出最终答案。他们发现，当模型规模超过一定规模时，这种策略会大大提高性能，但对小规模模型无效，显示出显著的涌现能力模式）

思维链的特点：