大模型介绍

大语言模型 (英文：Large Language Model，缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言。大语言模型可以处理多种自然语言任务，如文本分类、问答、翻译、对话等等。

通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型)，这些参数是在大量文本数据上训练的，例如模型 GPT-3、ChatGPT、GLM、BLOOM和 LLaMA等。

语言模型（LanguageModel）旨在建模词汇序列的生成概率，提升机器的语言智能水平，使机器能够模拟人类说话、写作的模式进行自动文本输出。

语言模型技术的发展可以总结为四个阶段：

准确率：模型预测正确的样本数量占总样本量的比重
精确率：在被识别为正类别的样本中，为正类别的比例
F1值：在所有正类别样本中，被正确识别为正类别的比例
BLEU分数：评估一种语言翻译成另一种语言的文本质量的指标.它将“质量”的好坏定义为与人类翻译结果的一致性程度.取值范围是[0,1]，越接近1，表明翻译质量越好。
ROUGE指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标.ROUGE通过将模型生成的摘要或者回答与参考答案（一般是人工生成的）进行比较计算，得到对应的得分。
PPL用来度量一个概率分布或概率模型预测样本的好坏程度。PPL越小，标明模型越好。

BLEU 根据 n-gram 匹配度计算，其中 n-gram 是 n 个连续的词汇或字符。举例说明：

机器翻译的译文candidate和一个参考翻译reference，计算BLEU分数。

candidate: It is a nice day today.
reference: Today is a nice day.

1-gram：

candidate: {it, is, a, nice, day, today}
reference: {today, is, a, nice, day}

其中 {today, is, a, nice, day} 是匹配的1-gram序列，所以匹配度为 5/6。

2-gram:

candidate: {it is, is a, a nice, nice day, day today}
reference: {today is, is a, a nice, nice day}

结果:其中{is a, a nice, nice day}匹配，所以匹配度为3/5。

ROUGE 指标与 BLEU 指标非常类似，均可用来衡量生成结果和标准结果的匹配程度，不同的是 ROUGE 基于召回率，BLEU 更看重准确率。 ROUGE 也分为四种方法：ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。

下面举例说明计算过程（这里只介绍 ROUGE_N）：

假设模型生成的文本 candidate 和一个参考文本 reference 如下：

candidate: It is a nice day today
reference: today is a nice day

使用 ROUGE-1 进行匹配：

candidate: {it, is, a, nice, day, today}
reference: {today, is, a, nice, day}

结果：其中 {today, is, a, nice, day} 匹配，所以匹配度为 5/5 = 1，这说明生成的内容完全覆盖了参考文本中的所有单词，质量较高。

PPL用来度量一个概率分布或概率模型预测样本的好坏程度。

给测试集的句子赋予较高概率值的语言模型较好，当语言模型训练完之后，测试集中的句子都是正常的句子，那么训练好的模型就是在测试集上的概率越高越好。

PP(W) = P(w_1w_2 \dots w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1w_2 \dots w_N)}}

PP(S) = 2^{-\frac{1}{N}\sum \log(P(w_i))}

由公式可知，句子概率越大，语言模型越好，迷惑度越小。