即插即用系列(代码实践) | WPFormer:基于小波与原型增强的双域 Transformer 表面缺陷检测网络

张开发
2026/5/13 13:37:14 15 分钟阅读

分享文章

即插即用系列(代码实践) | WPFormer:基于小波与原型增强的双域 Transformer 表面缺陷检测网络
论文题目:Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection应用任务:表面缺陷检测 (Surface Defect Detection)、工业视觉异常检测、像素级语义分割核心模块:WCA (小波增强交叉注意力), PCA (原型引导交叉注意力)摘要:本文提取自CVPR顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。在工业制造的表面缺陷检测(SDD)中,我们常常遇到两个极端难题:缺陷对比度极弱(Weak Defects),以及背景纹理极度杂乱(Cluttered Backgrounds)。传统的静态卷积或普通的 Transformer 往往难以在这样的干扰下精准定位病灶。本文复现了该网络的核心架构——WPFormer中的WCA与PCA模块。该方案创造性地将**频域分析(小波变换)与原型学习(Prototype Learning)**融入 Transformer 的查询机制中,是一套能够极大提升工业视觉检测鲁棒性的即插即用组件。目录第一部分:模块原理与实战分析1. 论文背景与解决的痛点2. 核心模块原理揭秘3. 架构图解4. 适用场景与魔改建议第二部分:核心完整代码第三部分:结果验证与总结第一部分:模块原理与实战分析1. 论文背景与解决的痛点在真实的工业流水线上(如织物、金属表面、半导体),缺陷检测面临着“神仙难救”的图像质量:被淹没的弱缺陷:许多划痕、凹陷的像素值与正常区域仅有毫厘之差,在深度网络的多次下采样中,这些微弱的特征极易被直接抹平。喧宾夺主的杂乱背景:工业材料往往自带复杂的规律或不规律纹理。普通的自注意力机制(Self-Attention)很容易被这些高频的背景纹理吸引,导致大量的“虚警(False Positives)”。痛点总结:我们需要一种机制,既能像“滤波器”一样滤除背景的高频杂波,又能像“放大镜”一样锁定微弱缺陷的本质特征。2. 核心模块原理揭秘WPFormer 提出了一个双域(Dual-domain)的 Transformer 解码器。我已将其最核心的注意力模块封装为独立的 PyTorch 类:WCA (Wavelet-enhanced Cross-Attention) - 小波增强交叉注意力:设计逻辑:引入了经典的离散小波变换 (DWT)。它将输入的特征图在频域上解耦为低频(LL)和高频(LH, HL, HH)分量。

更多文章