LLMDiRec:融合大语言模型与扩散模型的序列推荐系统

张开发
2026/6/5 10:19:05 15 分钟阅读

分享文章

LLMDiRec:融合大语言模型与扩散模型的序列推荐系统
1. 项目概述LLMDiRec的创新价值与技术定位在当今推荐系统领域序列推荐Sequential Recommendation技术正面临一个关键瓶颈传统基于ID嵌入的方法虽然能捕捉用户行为模式却难以理解行为背后的语义意图。想象一下当用户连续浏览游戏鼠标、机械键盘和4K显示器时传统系统可能仅识别出这些是电子产品而无法理解用户正在组装高性能电脑的深层意图。这种语义理解的缺失直接导致冷启动用户和长尾商品的推荐效果不佳。LLMDiRec的诞生正是为了解决这一核心痛点。作为首个将大语言模型LLM语义理解与意图感知扩散模型相结合的创新框架它通过三个关键技术突破重新定义了序列推荐的性能边界双视图表征学习同时利用ID嵌入捕捉协同过滤信号和LLM嵌入提取语义特征形成互补的item表征。例如在Amazon Beauty数据集中商品雅诗兰黛小棕瓶既通过用户交互数据获得协同特征又通过LLM解析其抗衰老精华的语义属性。语义增强的意图扩散在扩散模型的去噪过程中引入LLM提取的意图信号。当模型遇到教科书→iPad→书包的序列时能识别出返校准备的统一意图而非将电子产品与文具割裂看待。动态融合机制通过门控单元自适应调整协同信号与语义特征的权重比例。对于热门商品模型倾向于信任协同信号面对长尾商品则更多依赖LLM的语义理解实现智能的权重分配。这种创新架构带来的性能提升令人瞩目。在MovieLens-1M数据集上LLMDiRec的HR10达到0.6417较现有最佳模型提升2%而在长尾商品推荐场景Toys数据集的性能提升幅度高达113%。这些数字背后反映的是语义理解给推荐系统带来的质变。关键洞见LLMDiRec的核心突破不在于简单叠加LLM能力而是通过扩散模型的概率框架将语义意图自然地融入推荐生成的每一步。这就像给推荐系统装上了思考的透镜使其不仅能观察用户行为更能理解行为背后的动机。2. 技术架构深度解析2.1 双视图表征的构建与融合LLMDiRec的输入层设计体现了对推荐本质的深刻理解。每个商品i被表示为双重嵌入的复合体协同嵌入(e_id)标准的d维可训练向量通过用户-商品交互矩阵学习得到。这部分继承了传统协同过滤的优势特别适合捕捉啤酒与尿布这类隐含模式。语义嵌入(e_llm)采用BAAI/bge-m3等预训练LLM生成。以Yelp数据集为例商家海底捞火锅的语义提示模板包含商家属性名称:NAME; 类别:CATEGORY; 类型:TYPE; 评分:STARS; 城市:CITY通过冻结LLM参数保持语义稳定性仅训练轻量适配器Adapter将语义嵌入投影到协同空间。这种设计既避免了灾难性遗忘又实现了语义迁移。融合阶段采用门控机制γ σ(W[e_id; Adapter(e_llm)]) e_final γ⊙e_id (1-γ)⊙Adapter(e_llm)其中γ是学习到的门控向量在Sports数据集上观察发现体育器材类商品的平均γ值为0.63而运动服饰类则降至0.41说明模型能自动识别不同品类对协同信号的依赖程度。2.2 意图感知的扩散过程传统扩散模型在推荐中的应用往往存在语义漂移问题。LLMDiRec的创新在于将扩散过程与意图聚类深度耦合序列分割与编码采用动态前缀分割策略。对于长度为L的序列生成⌈log₂L⌉个子序列每个子序列通过Transformer编码器获得隐藏状态{h_i}。在Beauty数据集中用户洗面奶→爽肤水→精华→防晒霜的序列会被分割为护肤流程的不同阶段。K-means意图发现在语义增强的表示空间进行聚类。实验发现K16在多数数据集达到最优形成诸如节日礼物选购、日常护肤等可解释的意图原型。图3的t-SNE可视化显示LLMDiRec的意图簇轮廓系数达0.1197较基线提升307%。条件去噪扩散过程的关键改进点。正向过程沿用标准高斯噪声添加x_t √α̅_t x_0 √(1-α̅_t )ϵ而反向去噪时网络f_θ额外接收意图信号s作为条件L_diff E[∥ϵ - f_θ(x_t,s,t)∥²]这种设计确保生成的增强序列保持意图一致性。例如当s为健身装备时即使原始序列被噪声破坏重建的序列仍会保持蛋白粉→运动手环→瑜伽垫的语义连贯性。2.3 多任务优化策略模型通过四重损失函数的协同优化实现端到端训练下一项预测(L_rec)标准交叉熵损失确保基础推荐性能。在ML-1M数据集上单独使用该损失HR10为0.58。扩散去噪(L_diff)约束生成样本质量。加入后HR10提升至0.62。对比学习(L_cl)采用InfoNCE损失拉近原序列与增强样本的距离。温度系数τ0.1时效果最佳。嵌入对齐(L_align)余弦相似度损失最小化‖e_id - Adapter(e_llm)‖。消融实验显示该损失在Toys数据集带来5.6%提升。损失权重通过网格搜索确定λ_rec1.0, λ_diff0.5, λ_cl0.2, λ_align0.1。这种配置在保持主任务性能的同时实现了辅助目标的平衡优化。3. 关键实现细节与调优经验3.1 数据预处理的最佳实践在五个基准数据集上的实践揭示了关键insights序列长度处理对于MovieLens-1M这类长序列平均165.5采用滑动窗口切割为50-100的子序列而Amazon系列短序列8-12则保留完整序列。截断或填充会破坏时序模式。冷启动用户识别定义交互次数5的用户为冷启动。在Yelp数据集中这类用户占比12.3%其HR10仅为常规用户的47%。LLMDiRec通过强化语义特征将此差距缩小到28%。长尾商品界定按流行度排序将后20%商品划为长尾。实验显示Sports数据集的长尾商品平均仅有1.7次交互传统模型HR10仅0.0052而LLMDiRec提升至0.0091。3.2 扩散过程调参要点扩散步骤数的选择需要权衡质量与效率步骤过少T10生成样本多样性不足在Beauty数据集NDCG5下降19%步骤过多T200训练时间线性增长边际效益递减最优范围50-100步在ML-1M上达到性价比拐点噪声调度采用cosine方案比线性调度带来3-5%的性能提升def cosine_noise_schedule(T): return [math.cos((t/T 0.008)/1.008 * math.pi/2)**2 for t in range(T)]3.3 计算资源优化技巧LLM嵌入缓存商品语义嵌入在训练前预计算并存储节省90%的GPU内存。一个千万级商品库的嵌入约占用15GB存储空间。梯度检查点在扩散模型的U-Net中启用gradient checkpointing使最大批处理尺寸从32提升到128训练速度加快2.1倍。混合精度训练使用AMP自动混合精度在A6000显卡上实现22%的显存节省且精度损失可忽略0.3% HR下降。4. 性能对比与场景分析4.1 主流数据集上的全面评测表2的对比实验揭示出几个关键发现基准模型差距InDiRec已显著优于传统方法SASRec HR10差距达5倍说明意图扩散框架的有效性。LLMDiRec的稳定增益在所有数据集上均超越InDiRec其中稀疏数据优势明显Sports数据集提升7.1% NDCG密集数据也有进步ML-1M提升2.7% NDCG长尾场景突破如表3所示Toys数据集的长尾商品HR10从0.0218跃升至0.0464验证了语义融合的价值。4.2 消融实验的深度洞察表4的组件分析带来重要启示融合策略对比简单拼接在Beauty数据集表现最差HR10 0.0885加权求和中等效果0.0931门控机制最优效果0.0971跨注意力陷阱在短序列场景如ToysCA模块导致性能腰斩说明复杂融合可能过拟合。这提示我们需要根据序列特性动态选择融合策略。对齐损失的必要性移除L_align会使Sports数据集性能下降4.5%证明协同与语义空间的同步优化至关重要。5. 实战建议与局限讨论5.1 落地应用指南基于实际部署经验总结以下建议领域适配提示工程LLM提示模板需针对垂直领域优化。例如在电影推荐中加入导演、主演信息比单纯描述类型更有效电影《盗梦空间》由克里斯托弗·诺兰执导 莱昂纳多·迪卡普里奥主演属于科幻/悬疑类型 2010年上映IMDb评分8.8冷启动缓解策略当新用户首次交互时采用以下流程提取交互商品的语义特征查找K近邻意图原型基于原型初始化用户画像 该方法在A/B测试中使新用户7日留存提升18%。计算成本平衡若资源有限可采用以下折中方案高频商品使用缓存嵌入长尾商品实时调用轻量LLM如TinyLlama扩散步骤降至30-50步5.2 当前局限与改进方向在实践中观察到以下挑战多模态扩展当前仅处理文本信息未来可整合商品图像特征。初步实验显示加入CLIP视觉特征能使服饰推荐HR10再提升3-5%。意图演化建模用户意图会随时间变化如从孕妈用品转向婴儿护理需要动态调整聚类中心。我们正在测试在线K-means变体。提示敏感性LLM嵌入质量依赖提示设计。自动化提示优化如AutoPrompt可能是下一步方向。计算开销完整训练需约16小时A6000×2较传统方法增加40%成本。知识蒸馏到小型扩散模型是可行解决方案。

更多文章