一文看懂 Transformer 核心思想

一、核心机制

Transformer 是所有大模型的底层架构，核心是自注意力机制。

mermaid

graph LR
A[输入文本] --> B[注意力层]
B --> C[前馈网络]
C --> D[输出]

三、数学公式 Attention(Q,K,V)=softmax(dkQKT)V