外观
大模型介绍
大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言。大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。
通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、GLM、BLOOM和 LLaMA等。
语言模型
语言模型(LanguageModel)旨在建模词汇序列的生成概率,提升机器的语言智能水平,使机器能够模拟人类说话、写作的模式进行自动文本输出。
语言模型技术的发展可以总结为四个阶段:
- 基于规则和统计的语言模型
- 神经语言模型
- 预训练语言模型
- 大语言模型
语言模型的评估指标
- 准确率:模型预测正确的样本数量占总样本量的比重
- 精确率:在被识别为正类别的样本中,为正类别的比例
- F1值:在所有正类别样本中,被正确识别为正类别的比例
- BLEU分数:评估一种语言翻译成另一种语言的文本质量的指标.它将“质量”的好坏定义为与人类翻译结果的一致性程度.取值范围是
[0,1],越接近1,表明翻译质量越好。 - ROUGE指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标.ROUGE通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。
- PPL用来度量一个概率分布或概率模型预测样本的好坏程度。PPL越小,标明模型越好。
BLEU
BLEU 根据 n-gram 匹配度计算,其中 n-gram 是 n 个连续的词汇或字符。举例说明:
机器翻译的译文candidate和一个参考翻译reference,计算BLEU分数。
candidate: It is a nice day today.
reference: Today is a nice day.1-gram:
candidate: {it, is, a, nice, day, today}
reference: {today, is, a, nice, day}其中 {today, is, a, nice, day} 是匹配的1-gram序列,所以匹配度为 5/6。
2-gram:
candidate: {it is, is a, a nice, nice day, day today}
reference: {today is, is a, a nice, nice day}结果:其中{is a, a nice, nice day}匹配,所以匹配度为3/5。
ROUGE指标
ROUGE 指标与 BLEU 指标非常类似,均可用来衡量生成结果和标准结果的匹配程度,不同的是 ROUGE 基于召回率,BLEU 更看重准确率。 ROUGE 也分为四种方法:ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。
下面举例说明计算过程(这里只介绍 ROUGE_N):
假设模型生成的文本 candidate 和一个参考文本 reference 如下:
candidate: It is a nice day today
reference: today is a nice day使用 ROUGE-1 进行匹配:
candidate: {it, is, a, nice, day, today}
reference: {today, is, a, nice, day}结果:其中 {today, is, a, nice, day} 匹配,所以匹配度为 5/5 = 1,这说明生成的内容完全覆盖了参考文本中的所有单词,质量较高。
困惑度PPL
PPL用来度量一个概率分布或概率模型预测样本的好坏程度。
给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好。
PP(W)=P(w1w2…wN)−N1=NP(w1w2…wN)1
PP(S)=2−N1∑log(P(wi))
由公式可知,句子概率越大,语言模型越好,迷惑度越小。