AI产品 – Cage studio

在 AI 产品里，技术边界就是产品边界。产品经理不必写模型代码，但需要足够理解底层原理，才能判断“能做/不能做/代价几何”。

一、什么是Transformer？：从“顺序处理”到“全局关联”

简单来说，Transformer 是一种架构，利用Self-Attention机制来处理信息的神经网络架构。

在 Transformer 之前，文本常用 RNN¹/LSTM² 逐词处理，或用 CNN³ 做局部卷积。长文本会“遗忘”或难以建立远距离依赖。

而Transformer的核心改变则是使用Self-Attention 同时的看整段或整句，直接建立任意位置之间的关联。换而言之，self-attention 可以帮助模型判断词与词之间的关系，以及哪些词重要。

在推理过程当中，Transformer 会先输入一段句子，由此判断句尾下一个词会是什么，而Self-Attention 则会处理这些句子，判断那些词更重要。

二、Self-Attention 是什么？：给“相关词/相关片段”更高权重

Self-Attention 的直觉：在理解“当前词”时，去衡量它与序列中其他位置的相关性，并按相关性分配权重。

举个例子：

“猫在追老鼠，但它跑的更快。”

很明显，这里的“它”有可能指向猫，也有可能指向老鼠。但Self-Attention会计算“它”与“猫”、“老鼠”的语义相关性，并倾向与把“它”与“老鼠”联系起来，因为后面有“但它跑的更快”作为线索。

这种机制让模型不仅能理解句子的内容含义，还能在长文本中保持稳定的上下文联系。

对于一个基于Transformer的AI产品而言，Self-Attention可以使产品具备上下文理解能力以及历史记忆能力。

同时，这也带来了技术边界：

上下文长度有限
- 随着文本长度的增加，模型需要处理的上下文也会增加，进而增加算力的消耗。
- 过长的上下文文本，或长期记忆通常需要依靠外部记忆（RAG以及向量数据库等），而这些外部记忆又会导致文本内容切片的随机性而产生模型幻觉。
推理能力有限
- Transformer本质是模式匹配，是一种统计概率判断，而非真正的推理，在复杂多步的推理中成功率仍不客观。

Transformer 提供了能在序列里建模全局关系的“骨架”，Self-Attention 则是分配“关注”的“灵魂”。

注解：

RNN（循环神经网络）：按“时间顺序”一项一项地读入数据（如字、词、时间序列的点），每一步把“当前输入 + 上一步的隐藏状态”合成新的隐藏状态。直觉像逐字读文章，一边读一边在脑子里记笔记。 ↩︎
LSTM（长短期记忆网络）：RNN 的改良版，引入 “门”（输入门、遗忘门、输出门）和细胞状态 cₜ，用“要记/要忘/要输出”的开关控制信息流，减轻长程依赖难题。 ↩︎
CNN（卷积神经网络）：用小而共享的卷积核在输入上滑动，提取局部特征并逐层合成更高级的特征。 ↩︎

标签： AI产品