聊一聊 Transformer 的架构和基本原理。
使用 Transformer 解决了 RNN 面临的一些什么问题?
Transformer 的哪个部分最占用显存?
Transformer 的位置编码是怎样的?
Transformer 在计算 attention 的时候使用的是点乘还是加法?请说明理由。
self attention 中的 K 和 Q 是用来做什么的?
K 和 Q 可以使用同一个值通过对自身进行点乘得到吗?
如果让 K 和 Q 变成同一个矩阵,你觉得对模型性能会带来怎样的影响?
为什么 Transformer 采用多头注意力机制?
在不考虑计算量的情况下,head 能否无限增多?
在进行多头注意力的时候需要对每个 head 进行降维吗?
讲一下你对 Transformer 的 Encoder 模块的理解。
Transformer 中,Decoder 阶段的多头自注意力和 Encoder 阶段的多头自注意力是相同的吗?
了解 Transformer 模型训练中的梯度裁剪(Gradient Clipping)吗?
Transformer 为什么采用 Layer Normalization 而不是 Batch Normalization?
Transformer 中的注意力遮蔽(Attention Masking)的工作原理是什么?
什么是自回归属性(autoregressive property)?
Transformer 中如何实现序列到序列的映射?
Transformer 中的“残差连接”可以缓解梯度消失问题吗?
Transformer 中,如何处理大型数据集?
Transformer 模型训练完成后,如何评估其性能和效果?
Transformer 模型的性能瓶颈在哪?
你觉得可以怎样缓解这个性能瓶颈?
Transformer 和 LLM 有哪些区别
了解 ViT(Vision Transformer) 吗?
了解 ViLT(Vision-and-Language Transformer) 吗?
ViLT 模型是如何将 Transformer 应用于图像识别任务的?
chatGLM 和 GPT 在结构上有什么区别?