Python实战：用PCA和小波变换搞定数据降维（附完整代码）

张开发

• 2026/5/7 18:02:46 • 15 分钟阅读

分享文章

Python实战用PCA和小波变换搞定数据降维附完整代码数据降维是机器学习中一项至关重要的预处理技术。想象一下你手头有一个包含数百个特征的数据集每个特征都可能对模型产生影响但过多的特征不仅会增加计算成本还可能引入噪声降低模型性能。这时候数据降维技术就能大显身手了。本文将重点介绍两种强大的降维方法主成分分析(PCA)和小波变换。这两种方法各有特点PCA擅长处理结构化数据而小波变换则在图像和信号处理领域表现优异。我们将通过实际代码演示带你一步步掌握这些技术的核心应用。1. 数据降维基础概念在深入技术细节之前让我们先理解几个关键概念数据降维的本质是通过数学变换将高维数据映射到低维空间同时尽可能保留原始数据的重要信息。这就像把一本厚厚的书精简成摘要保留核心内容去掉冗余信息。降维技术主要分为两类特征选择从原始特征中选出一个子集特征提取通过变换创建新的特征集PCA和小波变换都属于特征提取方法。它们不是简单地丢弃某些特征而是通过线性或非线性变换生成一组全新的、更具代表性的特征。提示降维不是万能的。在某些情况下原始特征可能本身就具有明确的业务含义这时候降维反而会降低模型的可解释性。2. 主成分分析(PCA)实战PCA是最常用的线性降维方法之一。它的核心思想是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量这些新变量称为主成分。2.1 PCA数学原理PCA的数学基础是特征值分解。简单来说它通过以下步骤工作标准化数据均值为0方差为1计算协方差矩阵计算协方差矩阵的特征值和特征向量按特征值大小排序选择前k个特征向量作为主成分这些步骤听起来复杂但幸运的是Python的scikit-learn库已经帮我们封装好了所有细节。2.2 Python实现PCA让我们用经典的鸢尾花数据集来演示PCA的实际应用from sklearn.decomposition import PCA from sklearn.datasets import load_iris import matplotlib.pyplot as plt # 加载数据 data load_iris() X data.data y data.target # 应用PCA pca PCA(n_components2) # 降为2维 X_reduced pca.fit_transform(X) # 可视化结果 plt.figure(figsize(8, 6)) for target, color in zip([0, 1, 2], [r, g, b]): plt.scatter(X_reduced[y target, 0], X_reduced[y target, 1], ccolor, labeldata.target_names[target]) plt.xlabel(第一主成分) plt.ylabel(第二主成分) plt.title(鸢尾花数据集PCA降维结果) plt.legend() plt.show()这段代码将原本4维的鸢尾花数据降到了2维我们可以清晰地看到三个不同品种的鸢尾花在二维空间中的分布情况。2.3 PCA参数调优PCA有几个重要参数需要关注参数说明常用值n_components要保留的主成分数量整数或0-1之间的浮点数whiten是否白化数据True/Falsesvd_solverSVD求解器类型auto, full, arpack, randomized一个实用的技巧是使用explained_variance_ratio_属性来评估不同主成分的重要性pca PCA().fit(X) plt.plot(np.cumsum(pca.explained_variance_ratio_)) plt.xlabel(主成分数量) plt.ylabel(累计解释方差比例) plt.show()这个图能帮助我们确定保留多少主成分合适。通常我们会选择能解释90%以上方差的成分数量。3. 小波变换降维实战小波变换是一种时频分析方法特别适合处理非平稳信号和图像数据。与傅里叶变换相比小波变换能同时提供时间和频率信息这在许多实际应用中非常有用。3.1 小波变换基础小波变换的核心思想是用一组称为小波的基函数来表示信号。这些小波函数具有有限的持续时间和突变的频率能够很好地捕捉信号的局部特征。小波变换有两种主要形式连续小波变换(CWT)用于时频分析离散小波变换(DWT)用于数据压缩和降维在降维应用中我们主要使用DWT。DWT通过一系列滤波操作将信号分解为不同频率的子带然后根据需要保留重要的子带系数实现数据压缩。3.2 Python实现小波变换让我们用Python实现图像的小波变换降维import pywt import numpy as np import cv2 import matplotlib.pyplot as plt # 读取并预处理图像 img cv2.imread(lena.jpg, cv2.IMREAD_GRAYSCALE) img cv2.resize(img, (256, 256)) img img.astype(np.float32) / 255.0 # 执行2D小波变换 coeffs pywt.dwt2(img, haar) cA, (cH, cV, cD) coeffs # 可视化结果 plt.figure(figsize(10, 5)) plt.subplot(1, 2, 1) plt.imshow(img, cmapgray) plt.title(原始图像) plt.subplot(1, 2, 2) plt.imshow(np.abs(cA), cmapgray) plt.title(近似系数(降维后)) plt.show()在这个例子中我们使用了最简单的Haar小波。实际应用中可以根据数据特点选择不同的小波基函数小波族特点适用场景Haar最简单不连续快速实现教学示例Daubechies紧支撑正交一般信号处理Symlets接近对称图像处理Coiflets平滑信号去噪3.3 小波变换降维策略小波变换降维的关键在于系数选择。常用的策略包括阈值法保留绝对值大于某个阈值的系数能量法保留能量最大的若干系数分层保留在不同分辨率层保留不同数量的系数下面是一个基于阈值的降维实现def wavelet_denoise(img, threshold0.1): # 小波分解 coeffs pywt.dwt2(img, db1) cA, (cH, cV, cD) coeffs # 应用阈值 cH pywt.threshold(cH, threshold*np.max(cH)) cV pywt.threshold(cV, threshold*np.max(cV)) cD pywt.threshold(cD, threshold*np.max(cD)) # 小波重构 coeffs cA, (cH, cV, cD) return pywt.idwt2(coeffs, db1) denoised_img wavelet_denoise(img)4. PCA与小波变换的比较与结合虽然PCA和小波变换都能用于降维但它们各有特点和适用场景特性PCA小波变换数据假设线性关系无特定假设计算复杂度中等低到中等保持特征全局结构局部特征最佳适用结构化数据信号/图像数据可解释性中等取决于应用在实际项目中我们有时会结合使用这两种方法。例如在处理高维图像数据时可以先用小波变换提取特征再用PCA进一步降维# 假设我们有一组图像数据images wavelet_features [] for img in images: coeffs pywt.dwt2(img, db1) cA, _ coeffs wavelet_features.append(cA.flatten()) # 转换为numpy数组 X_wavelet np.array(wavelet_features) # 应用PCA pca PCA(n_components50) X_final pca.fit_transform(X_wavelet)这种组合方法能够充分利用两种技术的优势小波变换捕捉图像的局部特征PCA进一步提取最重要的全局模式。5. 实际应用中的注意事项在将降维技术应用于实际项目时有几个关键点需要考虑数据标准化PCA对数据的尺度非常敏感务必先进行标准化from sklearn.preprocessing import StandardScaler scaler StandardScaler() X_scaled scaler.fit_transform(X)维度选择不要盲目选择降维后的维度应该基于解释方差或业务需求pca PCA().fit(X_scaled) # 找到解释95%方差的维度 n_components np.where(np.cumsum(pca.explained_variance_ratio_) 0.95)[0][0] 1小波基选择不同的小波基适用于不同类型的数据需要实验确定# 测试不同小波基 for wavelet in [haar, db2, sym4]: coeffs pywt.dwt2(img, wavelet) # 评估效果...计算资源对于非常大的数据集可以考虑使用随机PCApca PCA(n_components10, svd_solverrandomized)结果解释降维后的特征可能失去原始含义需要考虑模型可解释性需求在图像处理项目中我发现小波变换PCA的组合特别有效。比如在一个面部识别项目中先用小波变换提取局部纹理特征再用PCA降维不仅提高了模型性能还大大减少了训练时间。

Python实战：用PCA和小波变换搞定数据降维（附完整代码）

最新文章

基于T3 Stack的AI友好型全栈开发模板：快速启动与高效协作指南

STM32 I2C驱动1602液晶屏：从零开始的嵌入式显示方案

如何在 matlab 中调用 taotoken 平台的多模型 api 接口

解放双手，让游戏回归乐趣：MAA明日方舟助手的智能陪伴

基于MobileNet架构的双维度图像质量评估技术实现与应用

5分钟掌握Open-Lyrics：AI智能音频转字幕完整指南

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

Arduino非阻塞PISO移位寄存器库：高可靠多路数字输入扩展

清单来了：8个降AI率网站测评，本科生降AIGC必备攻略

UE4开发者必备：这些Console命令让你的渲染调试效率翻倍（附快捷键大全）

嵌入式Linux驱动工程师求职经验与硬件项目辨析

Spring Boot项目必看：避免MyBatis BindingException的Maven配置技巧

CHORD-X模型Git版本管理实践：协作开发与模型迭代指南

Qwen3-TTS-Tokenizer-12Hz快速上手：Web界面上传→编码→解码→对比全流程

GP2Y1014AU粉尘传感器原理与MSPM0G3507嵌入式实现

告别信号反射：手把手教你处理PCB连接器焊盘下的阻抗坑

智能旋钮DIY指南：用MT6701芯片实现旋转+按压功能（含电路设计）

小白必看！ResNet18图像识别镜像：无需GPU，CPU也能毫秒级响应

SOEM主站核心API实战解析：从初始化到过程数据交互