mlp_计算过程说明

张开发

• 2026/6/6 1:12:11 • 15 分钟阅读

分享文章

MLP 算法计算过程说明1. 文件说明本项目生成了一个 Excel 文件用于演示一个最简单的多层感知机MLP, Multi-Layer Perceptron在单个样本上的完整计算过程。网络结构为输入层2 个特征x1, x2隐藏层2 个神经元激活函数为ReLU输出层1 个神经元激活函数为Sigmoid任务类型二分类损失函数Binary Cross EntropyBCEExcel 中已经把以下过程拆解到单元格中输入与标签初始权重和偏置前向传播Forward Pass损失计算反向传播Backpropagation一次梯度下降更新2. 本示例的输入与参数输入x1 0.6x2 0.9y 1学习率η 0.1输入层 → 隐藏层参数w11 0.2w21 -0.3b1 0.1w12 0.4w22 0.1b2 -0.2隐藏层 → 输出层参数v1 0.7v2 -0.5bo 0.053. 前向传播计算过程3.1 隐藏层第 1 个神经元线性变换z1 x1*w11 x2*w21 b1 0.6*0.2 0.9*(-0.3) 0.1 -0.05ReLU 激活a1 ReLU(z1) MAX(0, z1) 03.2 隐藏层第 2 个神经元线性变换z2 x1*w12 x2*w22 b2 0.6*0.4 0.9*0.1 - 0.2 0.13ReLU 激活a2 ReLU(z2) MAX(0, z2) 0.133.3 输出层线性变换zo a1*v1 a2*v2 bo 0*0.7 0.13*(-0.5) 0.05 -0.015Sigmoid 输出ŷ 1 / (1 e^(-zo)) ≈ 0.49625007034. 损失函数计算二分类交叉熵损失L -( y*ln(ŷ) (1-y)*ln(1-ŷ) )代入本例L ≈ 0.7006753053说明当前预测值约为0.4963而真实标签为1因此损失仍然比较大。5. 反向传播计算过程5.1 输出层梯度对于Sigmoid BCE的组合有一个常见简化结果dL/dzo ŷ - y ≈ 0.4962500703 - 1 ≈ -0.5037499297因此dL/dv1 dL/dzo * a1 0 dL/dv2 dL/dzo * a2 ≈ -0.0654874909 dL/dbo dL/dzo ≈ -0.50374992975.2 传回隐藏层第 1 个神经元dL/da1 dL/dzo * v1 ≈ -0.3526249508由于z1 -0.05 0 ReLU(z1) 0所以dL/dz1 dL/da1 * ReLU(z1) 0 dL/dw11 dL/dz1 * x1 0 dL/dw21 dL/dz1 * x2 0 dL/db1 dL/dz1 0这说明第 1 个隐藏神经元在本次样本下没有被激活因此其梯度为 0。5.3 传回隐藏层第 2 个神经元dL/da2 dL/dzo * v2 ≈ (-0.5037499297) * (-0.5) ≈ 0.2518749648由于z2 0.13 0 ReLU(z2) 1所以dL/dz2 ≈ 0.2518749648 dL/dw12 dL/dz2 * x1 ≈ 0.1511249789 dL/dw22 dL/dz2 * x2 ≈ 0.2266874684 dL/db2 dL/dz2 ≈ 0.25187496486. 一次参数更新梯度下降更新公式new_param old_param - η * gradient其中学习率η 0.1。本例更新结果为w110.2000 → 0.2000w21-0.3000 → -0.3000b10.1000 → 0.1000w120.4000 → 0.3849w220.1000 → 0.0773b2-0.2000 → -0.2252v10.7000 → 0.7000v2-0.5000 → -0.4935bo0.0500 → 0.10047. Excel 文件中各工作表说明工作表 1MLP计算过程这是主工作表展示了完整的数值推导过程包括输入和标签权重、偏置前向传播损失计算反向传播梯度参数更新关键结果摘要其中蓝色字体输入值或可修改参数黑色字体公式计算结果灰色字体说明性文字工作表 2公式说明该工作表总结了 MLP 中常见公式与含义便于快速复习。

mlp_计算过程说明

最新文章

SQL数据定义实战代码详解：手把手搭建你的第一个数据库

gprMax3.0建模避坑指南：自定义几何形状时，HDF5文件与材料属性文件必须注意的3个细节

层数与叠层结构如何左右FPC报价？多层软板成本递增规律详解

手把手教你用Vitis HLS给ZYNQ写个“共享内存”IP核：基于BRAM的PS-PL交互全流程

高效iOS图像背景移除解决方案：BackgroundRemoval开源库实战指南

如何打造极致便携的Windows C/C++开发环境：w64devkit深度解析

推荐文章

STM32F4驱动AD7606避坑指南：SPI配置、时序调试与电压换算全流程

TVA与其他AI智能体的本质区别与联系（10）

使用 LangGraph 构建复杂的自动化测试用例“生成-执行-修复”循环

MTKClient终极指南：5分钟快速修复联发科设备变砖问题

Parallels Desktop 17保姆级教程：给CentOS 7虚拟机配个固定IP，开发调试再也不怕IP变来变去

Steam游戏《Turing Complete》通关笔记：手把手教你从逻辑门到可编程CPU的完整搭建流程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

AI智能二维码工坊部署教程：WebUI集成快速部署详细步骤

番茄小说下载器终极指南：一键打造个人数字图书馆的完整解决方案

比迪丽AI绘画在AE视频制作中的应用：动态素材快速生成

Gemma-3-12B-IT WebUI惊艳案例：根据‘设计一个分布式ID生成器’需求输出Snowflake实现+压测方案

github copilot取消订阅

战报首发！浦林成山区域经销商交出亮眼答卷

Mermaid Live Editor：免费在线图表编辑器，5分钟轻松创建专业流程图

技术深度剖析：Infoseek 字节探索舆情处置系统的全链路架构与核心实现

从数据湖仓到AI就绪数据空间：构建可审计、可追溯、可干预的实时治理中枢（含开源工具链选型矩阵）

从零开始：在星图平台用Clawdbot连接飞书与Qwen3-VL

RTX3060也能跑！通义千问2.5-7B量化部署实战，显存仅需4GB

Qwen3-14B-AWQ效果实测：用Chainlit界面体验140亿参数大模型的对话能力