从卷积到自注意力：ResNet和ViT的特征提取原理详解

张开发

• 2026/5/11 5:16:22 • 15 分钟阅读

分享文章

从卷积到自注意力ResNet和ViT的特征提取原理详解在计算机视觉领域特征提取是模型理解图像内容的核心能力。传统卷积神经网络CNN如ResNet和新兴的Vision TransformerViT代表了两种截然不同的特征提取范式。本文将深入剖析这两种架构的工作原理揭示它们处理视觉信息的本质差异。1. 卷积神经网络的特征提取机制1.1 卷积操作的本质卷积核是CNN的特征提取器其工作方式如同一个局部特征探测器。当3×3或5×5的卷积核在图像上滑动时它执行的是局部区域的加权求和运算# 示例3x3卷积操作伪代码 def conv2d(input, kernel): output zeros_like(input) for i in range(input.height - 2): for j in range(input.width - 2): patch input[i:i3, j:j3] # 3x3局部区域 output[i,j] sum(patch * kernel) # 元素相乘后求和 return output这种局部连接的特性带来几个关键优势平移等变性物体移动时其特征响应也会相应移动参数共享同一卷积核在整个图像上复用大幅减少参数量层次化特征提取浅层网络捕捉边缘等低级特征深层网络组合出高级语义特征1.2 ResNet的残差学习突破传统CNN随着深度增加会出现梯度消失问题。ResNet通过引入残差连接skip connection解决了这一难题输入 → 卷积层 → ReLU → 卷积层 → ← 原始输入 ↓_________________________↑这种结构使得网络可以学习输入与输出之间的残差差异而非直接学习完整的映射。实验表明残差块具有以下特性网络深度传统CNN准确率ResNet准确率18层72%73%34层68%75%50层63%77%提示残差连接相当于为梯度提供了高速公路使深层网络训练成为可能2. Vision Transformer的革新设计2.1 图像分块与线性嵌入ViT首先将输入图像分割为固定大小的patch通常16×16像素然后将每个patch展平为向量并通过线性投影[批大小, 3, 224, 224] → [批大小, 196, 768] # 将224x224图像分为196个16x16的patch这一过程完全摒弃了卷积操作改用全连接层实现空间到特征的映射。每个patch向量还会加上位置编码以保留空间信息# 位置编码示例正弦函数形式 position torch.arange(0, num_patches).unsqueeze(1) div_term torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model)) pe[:, 0::2] torch.sin(position * div_term) # 偶数维度 pe[:, 1::2] torch.cos(position * div_term) # 奇数维度2.2 自注意力机制解析Transformer的核心是多头自注意力MSA它允许每个patch与所有其他patch建立动态关联注意力分数 Softmax(Q·K^T/√d_k)·V其中QQuery、KKey、VValue均来自同一组patch嵌入。这种机制具有三个显著特点全局感受野每个patch都能直接关注图像任意位置动态权重分配注意力权重根据内容相关性实时计算并行计算所有位置关系可同时处理不受序列顺序限制与CNN的固定卷积核相比ViT的注意力头可以学习不同的关注模式注意力头主要关注区域头1物体边缘头2纹理区域头3颜色过渡区头4空间中心3. 两种范式的对比分析3.1 特征提取方式差异ResNet和ViT在特征提取路径上存在根本区别局部vs全局CNN通过堆叠卷积层逐步扩大感受野ViT从一开始就建立全局关联固定vs动态CNN卷积核权重在推理时固定ViT注意力权重根据输入内容动态调整层次化vs扁平化CNN特征图尺寸逐渐减小通道数增加ViT始终保持原始patch数量变化嵌入维度3.2 计算效率对比在ImageNet-1k上的实测数据显示模型参数量FLOPs准确率ResNet-5025M4.1G76.2%ViT-B/1686M17.6G77.9%ResNet-15260M11.6G78.3%ViT-L/16307M61.6G81.2%注意ViT通常需要更大规模的数据预训练才能发挥优势4. 实际应用中的选择策略4.1 何时选择ResNet以下场景更适合采用CNN架构训练数据有限1百万样本需要实时推理移动端部署任务依赖局部特征如边缘检测硬件对卷积有专门优化如Tensor Core4.2 何时选择ViTViT在以下情况表现更优数据量充足可进行大规模预训练任务需要全局上下文理解如场景分类图像中存在长距离依赖关系需要多模态融合如图文跨模态学习4.3 混合架构探索业界已出现结合两者优势的混合模型例如ConViT在注意力机制中引入卷积归纳偏置CoAtNet在浅层使用CNN深层使用TransformerMobileViT为移动设备优化的轻量级混合架构这些创新表明未来的视觉模型可能会继续融合局部感知与全局建模的优势。

从卷积到自注意力：ResNet和ViT的特征提取原理详解

最新文章

Word 2016 排版进阶(1): 巧用域代码批量处理交叉引用格式

Kaggle实战工具箱：模块化工作流与AI辅助的数据科学项目实践

告别重复劳动：用Excel+REN命令实现文件批量重命名的自动化方案

Score与Helm结合：云原生应用定义与交付的新实践

别再硬写QMenu的width和height了！Qt样式表实战：用盒模型思维搞定菜单尺寸

基于GPT与必应搜索的RAG系统：实现AI联网问答的工程实践

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

Emotion2Vec+快速入门：无需代码，用WebUI轻松识别语音情感

2026年AI卷疯了！岗位暴涨12倍，小白也能冲的高薪岗位，建议收藏！

终极AWS安全工具宝典：我的AWS安全工具库完全指南 [特殊字符]️

百考通AI，开题报告一键生成，更从容

GoInception SQL审核工具Java调用指南：从环境搭建到完整Demo

如何为小米Yi摄像头刷入yi-hack-v3固件？5分钟快速上手教程

南京邮电大学微型计算机原理MOOC实战：手把手教你搞定补码运算与BCD码转换

Leaflet+Canvas渲染30万坐标点实战：PixiJS加速方案与性能对比

ESP32S3基础7-蓝牙通信-Uniapp与ESP32开发板数据交互

如何用FactoryBluePrints蓝图库实现戴森球计划工厂效率翻倍？全场景应用指南

【vLLM】引擎核心探秘：从进程启动到权重落地的模型加载全链路解析

AI语音合成突破性工具：Style-Bert-VITS2开启个性化声音定制新纪元