DeepSeek技术溯源及前沿探索
- 2025-05-27 10:20:53上传人:醉眼**云烟
-
Aa
小
中
大
Transformer:理论架构创新自注意力机制:支持并行计算/全局上下文的理解能力多头注意力:从多个角度捕捉复杂的语义关系前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性预训练时代:大力出奇迹(“暴力美学”)BERT:BidirectionalEncoderRepresentationsTransformersGPT:GenerativePertainedTransformer自监督算