1. 统计语言模型 (Statistical Language Model, SLM)

基于统计学习方法研发的统计语言模型,兴起于20世纪90年代。根据词序列中若干个连续的上下文单词来预测下一个词的出现概率,从而实现对自然语言的理解和生成。
代表模型:N-gram模型
应用场景
·输入法联想

·拼写纠错(teh—the)

·早期机器翻译(A一>B)

局限性
X数据稀疏问题(没见过的词组概率=0)

X上下文窗口极短(通常只看2-3个词)

2. 神经语言模型(Neural Language Model, NLM)

使用神经网络学习语言的概率分布。通过词嵌入捕捉词之间的语法和语义关系。常见架构包括RNN、LSTM和GRU,能更好地捕捉长距离依赖关系。”猫”[0.2,0.8…]代表模型:BNN-LM、word2vec

应用场景:

机器翻译/ 文本生成/ 语音识别

局限性:

X计算资源要求高(训练时间长)
X可迁移性差(需针对新领域重新训练)

3. 预训练语言模型(Pre-trained Language Model, PLM)

通过在大规模无标注文本上预训练的深度学习模型。核心思想:预训练一微调。先学习语言基本结构,再针对特定任务微调。代表模型:BERT、GPT-2、T5
大数据—模型(预训练一微调)——下游任务

应用场景:

文本分类/ 机器翻译/ 情感分析
局限性
X计算资源需求极高(训练成本巨大)

X训练数据含偏见(影响模型输出)

Pre-trained Models两大范式

1.浅层次嵌入(Non-Contextual Embeddings)

词嵌入 训练目标 预料范围 特点
NNLM 语言模型 局部语料 基于语言模型训练,词嵌入只是NNLM的一个产物
Word2Vec 非语言模型(窗口上下文) 局部语料 采用分层SoftMax和负采样,损失函数为带权重的交叉熵
Glove 非语言模型(词共现矩阵) 全局语料 全局语料构建词共现矩阵后进行高效矩阵分解算法

2.预训练编码器(Contextual Embeddings) (解决一词多义)

编码器 PTMs代表 计算方式 特点
MLP(MultiLayerPerceptron) NNLM/Word2Vec 前馈+并行 不考虑位置信息
CNNs 前馈+并行 考虑位置信息 n-gram局部上下文编码
RNN→LSTM ELMo 循环+串行 天然适合处理位置信息,但BPTT会导致梯度消失
Transformer(Encoder) BERT 前馈+并行 self-attention 解决长距离依赖,无位置偏差
Transformer(Decoder) GPT-1、GPT-2 前馈+并行
Transformer-XL XLNet 循环+串行 基于transformer引入相对位置编码

Recurrent NN

(RNN)

limitation:Vanishing gradient problem

Long Short Term Memory

LSTM

上侧箭头变化慢,下侧箭头变化快,保证梯度不会消失。

Embedding from Language Model (ELMo)

RNN-based language model

​ training of ELMo: Next Word Prediction

  • contextualized word embedding
  • each word token has its own embedding

ELMo

  1. 同一个单词上下文不同embedding可能不同(一词多义)

  2. 有从前到后和从后到前两种embedding,都要

  3. 有不同层的embedding, 都要,再给比例(不同实验比例不同)

Bidirectional Encoder Represtations from Transformer (BERT)

encoder of transformer

  • bidirectional 双向!

Training of BERT

  • Approach 1: Masked LM (MLM)

    盖掉句子中的一些单词,预测被改掉的单词是哪个

    如果两个词汇填在同一个地方没有违和感,那么他们可能意思相似,拥有相似的Embedding

  • Approach 2: Next Sentence Prediction

    判断两个句子是否应该被接在一起

    [SEP] : the boundary of two sentences

    [CLS] : the position that outputs classification results (一般在开头)

How to use BERT

根据特定 case对模型进行 fine tuning

  • case1: input 句子,output 分类(文本分类,情感分类)

    ​ 经过BERT(fine-tuned)后, [CLS]的输出再来Linear Classifier。

  • case2: input 句子,output 每个单词的分类

  • case3: input 句子*2, output 分类 (根据前提,判断假设是否正确)

  • case4: Extraction-based Question Answering(给一篇文章,问他一些问题,问题中的词汇要在文章中出现过)

延申:Enhanced Representation through Knowledge Integration (ERNIE)

   因为中文中盖掉一些字很容易猜出来,因此我们盖掉一些词汇。

Genrative Pre-Training (GPT)

decoder of transformer

非常非常的巨大,很神奇。

根据下游任务的模型修改

fine-tuning

预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务,这个过程中,预训练语言模型做出了更多的牺牲。

delta-tuning

仅微调模型参数的一小部分,或是增加一组参数,而其余部分保持不变。

  • prefix-tuning

    提出任务特定的trainable前缀prefix,这样直接为不同任务保存不同的前缀即可。只需要不同任务设置不同的Prefix即可,因此实现上只需要存储一个大型transformer模型和多个学习的任务特定的prefix参数。

  • prompt-tuning

    将人为的规则给到预训练模型,使模型可以更好地理解人的指令的一项技术,以便更好地利用预训练模型。例如,在文本情感分类任务中,输入为”I love this movie.”,希望输出的是”positive/negative”中的一个标签。那么可以设置一个Prompt,形如:“The movie is _”,然后让模型用来表示情感状态的答案(label),如positive/negative,甚至更细粒度一些的“fantastic”、“boring”等,将空补全作为输出。

Part of speech tagging

  • 词性标注
Tag Description Tag Description
CC Coordinating conjunction RB Adverb
IN 介词 SYM Symble
JJ Adjective VB Verb
NN None DT Determiner 限定词

4. 大语言模型 (Large Language Model, LLM)

是什么?
经过规模扩展的预训练语言模型,展现出”扩展法则”与”涌现能力”—能完成小模型无法胜任的复杂任务。本质是在海量无标注文本上预训练的超大型语言模型。数据预训练涌现能力代表模型:GPT-3、GPT-4、Claude

应用场景
对话系统/ 代码生成/ 文本生成

核心特点
扩展法则:模型越大,能力越强

涌现能力:超越小模型的突破性能力