标签: AI产品

  • 关于AI产品需要知道的一些底层架构知识——Transformer

    关于AI产品需要知道的一些底层架构知识——Transformer

    在 AI 产品里,技术边界就是产品边界。产品经理不必写模型代码,但需要足够理解底层原理,才能判断“能做/不能做/代价几何”。


    一、什么是Transformer?:从“顺序处理”到“全局关联”

    简单来说,Transformer 是一种架构,利用Self-Attention机制来处理信息的神经网络架构。

    在 Transformer 之前,文本常用 RNN1/LSTM2 逐词处理,或用 CNN3 做局部卷积。长文本会“遗忘”或难以建立远距离依赖。

    而Transformer的核心改变则是使用Self-Attention 同时的看整段或整句直接建立任意位置之间的关联。换而言之,self-attention 可以帮助模型判断词与词之间的关系,以及哪些词重要。

    在推理过程当中,Transformer 会先输入一段句子,由此判断句尾下一个词会是什么,而Self-Attention 则会处理这些句子,判断那些词更重要。

    二、Self-Attention 是什么?:给“相关词/相关片段”更高权重

    Self-Attention 的直觉:在理解“当前词”时,去衡量它与序列中其他位置的相关性,并按相关性分配权重。

    举个例子:

    “猫在追老鼠,但它跑的更快。”

    很明显,这里的“它”有可能指向猫,也有可能指向老鼠。但Self-Attention会计算“它”与“猫”、“老鼠”的语义相关性,并倾向与把“它”与“老鼠”联系起来,因为后面有“但它跑的更快”作为线索。

    这种机制让模型不仅能理解句子的内容含义,还能在长文本中保持稳定的上下文联系。

    对于一个基于Transformer的AI产品而言,Self-Attention可以使产品具备上下文理解能力以及历史记忆能力。

    同时,这也带来了技术边界:

    1. 上下文长度有限
      • 随着文本长度的增加,模型需要处理的上下文也会增加,进而增加算力的消耗。
      • 过长的上下文文本,或长期记忆通常需要依靠外部记忆(RAG以及向量数据库等),而这些外部记忆又会导致文本内容切片的随机性而产生模型幻觉。
    2. 推理能力有限
      • Transformer本质是模式匹配,是一种统计概率判断,而非真正的推理,在复杂多步的推理中成功率仍不客观。

    Transformer 提供了能在序列里建模全局关系的“骨架”,Self-Attention 则是分配“关注”的“灵魂”。


    注解:

    1. RNN(循环神经网络):按“时间顺序”一项一项地读入数据(如字、词、时间序列的点),每一步把“当前输入 + 上一步的隐藏状态”合成新的隐藏状态。直觉像逐字读文章,一边读一边在脑子里记笔记↩︎
    2. LSTM(长短期记忆网络):RNN 的改良版,引入 “门”(输入门、遗忘门、输出门)和细胞状态 cₜ,用“要记/要忘/要输出”的开关控制信息流,减轻长程依赖难题↩︎
    3. CNN(卷积神经网络):用小而共享的卷积核在输入上滑动,提取局部特征并逐层合成更高级的特征。 ↩︎