大模型应用开发面试题(来自牛客网)

张开发
2026/4/20 1:13:21 15 分钟阅读

分享文章

大模型应用开发面试题(来自牛客网)
平时八股积累,争取坚持学习更新,答案收集与整理于网络1.为什么多头注意力能提升表达能力?W是权重,dK为K的维度,attention即带权重的Value并行多次(多头注意力机制)增强模型处理复杂信息的能力,原因如下:捕捉多维度信息:一个注意力头可能擅长捕捉句法关系(比如主谓关系),而另一个注意力头可能更擅长捕捉语义关系(比如同义词或反义词)。通过并行使用多个注意力头,模型可以同时从不同的角度和层面来分析输入提升模型容量:每个注意力头都独立地执行相关性打分和信息组合,这极大地增加了模型处理和建模复杂模式的能力。这使得模型能够同时关注序列中多个不同类型的模式或关系并行处理效率:并行执行多个注意力头,而不是串行执行,可以提高计算效率。这种设计使得模型能够更高效地处理大规模的输入数据。ps:单个注意力头的计算过程目标是为当前正在处理的词汇(或“位置”)生成一个新的向量表示,其中融入了来自先前所有词汇的相关信息。以Sarah fed the cat because it...举例,想要it指代cat1. 准备工作:投影矩阵在计算开始前,模型会训练出三个特殊的投影矩阵:Query(查询)投影矩阵,Key(键)投影矩阵,Value(值)投影矩阵这是注意力机制的核心。将原始的输入向量(即词汇的表示)映射到三个不同的、有意义的空间。2. 生成查询、键和值向量注意力计算的第一步,是使用这些投影矩阵将输入信息进行转换:模型将当前位置的输入向量乘以查询投影矩阵,得到查询(Query)向量。模型将所有先前位置的输入向量乘以键投影矩阵,得到一系列键(Key)向量。模型将所有先前位置的输入向量乘以值投影矩阵,得到一系列值(Value)向量。3. 核心计算:相关性打分与信息组合相关性打分(Relevance scoring):通过计算当前位置的查询向量与所有位置(包含当前位置)的键向量之间的点积(Dot product)来完成。点积的结果就是一个相关性分数,分数越高,表示两者之间的关联越强。信息组合(Combining information):在得到相关性分数后,模型会将这些分数进行归一化(通常通过Softmax函数),然后将这些归

更多文章