在 AI 产品里,技术边界就是产品边界。产品经理不必写模型代码,但需要足够理解底层原理,才能判断“能做/不能做/代价几何”。
一、什么是Transformer?:从“顺序处理”到“全局关联”
简单来说,Transformer 是一种架构,利用Self-Attention机制来处理信息的神经网络架构。
在 Transformer 之前,文本常用 RNN1/LSTM2 逐词处理,或用 CNN3 做局部卷积。长文本会“遗忘”或难以建立远距离依赖。
而Transformer的核心改变则是使用Self-Attention 同时的看整段或整句,直接建立任意位置之间的关联。换而言之,self-attention 可以帮助模型判断词与词之间的关系,以及哪些词重要。
在推理过程当中,Transformer 会先输入一段句子,由此判断句尾下一个词会是什么,而Self-Attention 则会处理这些句子,判断那些词更重要。
二、Self-Attention 是什么?:给“相关词/相关片段”更高权重
Self-Attention 的直觉:在理解“当前词”时,去衡量它与序列中其他位置的相关性,并按相关性分配权重。
举个例子:
“猫在追老鼠,但它跑的更快。”
很明显,这里的“它”有可能指向猫,也有可能指向老鼠。但Self-Attention会计算“它”与“猫”、“老鼠”的语义相关性,并倾向与把“它”与“老鼠”联系起来,因为后面有“但它跑的更快”作为线索。
这种机制让模型不仅能理解句子的内容含义,还能在长文本中保持稳定的上下文联系。
对于一个基于Transformer的AI产品而言,Self-Attention可以使产品具备上下文理解能力以及历史记忆能力。
同时,这也带来了技术边界:
- 上下文长度有限
- 随着文本长度的增加,模型需要处理的上下文也会增加,进而增加算力的消耗。
- 过长的上下文文本,或长期记忆通常需要依靠外部记忆(RAG以及向量数据库等),而这些外部记忆又会导致文本内容切片的随机性而产生模型幻觉。
- 推理能力有限
- Transformer本质是模式匹配,是一种统计概率判断,而非真正的推理,在复杂多步的推理中成功率仍不客观。
Transformer 提供了能在序列里建模全局关系的“骨架”,Self-Attention 则是分配“关注”的“灵魂”。
注解:
