Appearance
Transformer 是所有大模型的底层架构,核心是自注意力机制。
graph LR A[输入文本] --> B[注意力层] B --> C[前馈网络] C --> D[输出]
三、数学公式 Attention(Q,K,V)=softmax(dkQKT)V