知识蒸馏之交叉熵篇——代码实战

张开发

• 2026/4/30 6:26:21 • 15 分钟阅读

分享文章

知识蒸馏之交叉熵篇——代码实战。下述代码总体上表示为把模型输出student_logits和真实答案labels做比较计算一个“分类错误程度”的损失值命名为ce_loss。ce_lossF.cross_entropy(student_logits,labels)那么问题来了------1. 为什么用交叉熵因为这是分类任务里最常用的损失函数。比如模型要判断一张图是猫、狗、车。模型不会直接说“猫”而是输出每个类别的分数student_logits[2.1,0.3,-1.2]这些分数表示模型对每个类别的倾向。交叉熵适合衡量模型预测的类别概率与真实类别之间从概率上看差得有多远。如果模型对正确类别非常自信交叉熵小。如果模型对错误类别很自信交叉熵大。2. 交叉熵有什么作用它的作用是告诉模型你错得有多离谱。举例如果真实标签是“猫”。现在模型 A 预测这个标签的概率分布结果为猫: 0.90, 狗: 0.08, 车: 0.02交叉熵损失很小因为正确类别概率高。模型 B 预测的结果为猫: 0.20, 狗: 0.70, 车: 0.10交叉熵损失较大因为模型更相信“狗”。训练时神经网络会通过反向传播让这个损失变小。也就是让模型越来越倾向于给正确类别更高分。3. 什么是ce_loss有什么用处ce_loss是一个变量名通常表示cross entropy loss也就是交叉熵损失。它一般是一个标量比如tensor(0.7321)它的用途主要有两个ce_loss.backward()optimizer.step()ce_loss.backward()会计算梯度告诉每个参数应该往哪个方向调整。optimizer.step()根据梯度更新模型参数。所以ce_loss是训练模型时的核心指标之一模型通过最小化它来学习。4. 这个F是哪里定义的里面大概都有些什么这里的F通常来自 PyTorchimporttorch.nn.functionalasFF不是一个函数而是一个模块完整名字是torch.nn.functional里面有很多常用的神经网络函数比如F.relu()F.softmax()F.cross_entropy()F.mse_loss()F.dropout()F.max_pool2d()F.one_hot()这些函数通常是“无状态”的也就是只负责计算不自己保存可训练参数。比如F.relu(x)只是把小于 0 的数变成 0。而类似nn.Linear(...)这种层会保存权重参数。5.student_logits、labels分别代表什么为什么定义这两个参数student_logits是学生模型的原始输出分数。名字里有两个部分student表示学生模型logits表示还没有经过 softmax 的原始分类分数例如一个 batch 有 2 条样本每条样本分 3 类student_logitstorch.tensor([[2.1,0.3,-1.2],[0.1,1.5,0.4]])形状通常是[batch_size,num_classes]labels是真实类别标签labelstorch.tensor([0,1])意思是第 1 个样本真实类别是第 0 类第 2 个样本真实类别是第 1 类定义这两个参数是为了让损失函数知道模型预测了什么真实答案是什么有了这两个东西才能计算模型错得多不多。6. 这一整行代码是用来干什么的这一整行代码的作用是ce_lossF.cross_entropy(student_logits,labels)把学生模型的输出student_logits和真实标签labels进行比较计算分类损失并保存到ce_loss变量里。可以理解成ce_loss 模型预测结果和标准答案之间的差距在知识蒸馏代码里它通常表示学生模型直接向真实标签学习的损失。比如总损失可能是lossalpha*ce_lossbeta*distill_loss其中ce_loss学生模型向真实标签学习distill_loss学生模型向教师模型学习附上实现mini知识蒸馏的代码importargparseimportrandomfrompathlibimportPathimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFfromsklearn.datasetsimportload_digitsfromtorch.utils.dataimportDataLoader,TensorDataset,random_splitfromtorchvisionimportdatasets,transformsclassTeacherCNN(nn.Module):def__init__(self):super().__init__()self.featuresnn.Sequential(nn.Conv2d(1,32,kernel_size3,padding1),nn.ReLU(),nn.Conv2d(32,64,kernel_size3,padding1),nn.ReLU(),nn.MaxPool2d(2),nn.Conv2d(64,128,kernel_size3,padding1),nn.ReLU(),nn.MaxPool2d(2),)self.classifiernn.Sequential(nn.Flatten(),nn.Linear(128*7*7,256),nn.ReLU(),nn.Dropout(0.2),nn.Linear(256,10),)defforward(self,x):returnself.classifier(self.features(x))classStudentCNN(nn.Module):def__init__(self):super().__init__()self.featuresnn.Sequential(nn.Conv2d(1,16,kernel_size3,padding1),nn.ReLU(),nn.MaxPool2d(2),nn.Conv2d(16,32,kernel_size3,padding1),nn.ReLU(),nn.MaxPool2d(2),)self.classifiernn.Sequential(nn.Flatten(),nn.Linear(32*7*7,64),nn.ReLU(),nn.Linear(64,10),)defforward(self,x):returnself.classifier(self.features(x))defset_seed(seed):random.seed(seed)torch.manual_seed(seed)torch.cuda.manual_seed_all(seed)defcount_params(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)defbuild_loaders(data_dir,batch_size,dataset_name,seed):ifdataset_namedigits:digitsload_digits()imagestorch.tensor(digits.images,dtypetorch.float32).unsqueeze(1)/16.0imagesF.interpolate(images,size(28,28),modebilinear,align_cornersFalse)images(images-0.5)/0.5labelstorch.tensor(digits.target,dtypetorch.long)datasetTensorDataset(images,labels)train_sizeint(0.8*len(dataset))test_sizelen(dataset)-train_size generatortorch.Generator().manual_seed(seed)train_set,test_setrandom_split(dataset,[train_size,test_size],generatorgenerator)train_loaderDataLoader(train_set,batch_sizebatch_size,shuffleTrue,num_workers0)test_loaderDataLoader(test_set,batch_sizebatch_size,shuffleFalse,num_workers0)returntrain_loader,test_loader transformtransforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,),(0.3081,)),])train_setdatasets.MNIST(data_dir,trainTrue,downloadTrue,transformtransform)test_setdatasets.MNIST(data_dir,trainFalse,downloadTrue,transformtransform)train_loaderDataLoader(train_set,batch_sizebatch_size,shuffleTrue,num_workers0)test_loaderDataLoader(test_set,batch_sizebatch_size,shuffleFalse,num_workers0)returntrain_loader,test_loaderdefevaluate(model,loader,device):model.eval()correct0total0loss_total0.0withtorch.no_grad():forimages,labelsinloader:imagesimages.to(device)labelslabels.to(device)logitsmodel(images)loss_totalF.cross_entropy(logits,labels).item()*images.size(0)predslogits.argmax(dim1)correct(predslabels).sum().item()totallabels.size(0)returnloss_total/total,correct/totaldeftrain_supervised(model,train_loader,test_loader,device,epochs,lr,name):optimizertorch.optim.Adam(model.parameters(),lrlr)model.to(device)forepochinrange(1,epochs1):model.train()running_loss0.0forimages,labelsintrain_loader:imagesimages.to(device)labelslabels.to(device)optimizer.zero_grad()logitsmodel(images)lossF.cross_entropy(logits,labels)loss.backward()optimizer.step()running_lossloss.item()*images.size(0)test_loss,test_accevaluate(model,test_loader,device)train_lossrunning_loss/len(train_loader.dataset)print(f{name}epoch{epoch}: train_loss{train_loss:.4f}test_loss{test_loss:.4f}test_acc{test_acc:.4f})defdistillation_loss(student_logits,teacher_logits,labels,temperature,alpha):ce_lossF.cross_entropy(student_logits,labels)soft_student_log_probsF.log_softmax(student_logits/temperature,dim1)soft_teacher_probsF.softmax(teacher_logits/temperature,dim1)kd_lossF.kl_div(soft_student_log_probs,soft_teacher_probs,reductionbatchmean)returnalpha*ce_loss(1-alpha)*(temperature**2)*kd_lossdeftrain_distilled(student,teacher,train_loader,test_loader,device,epochs,lr,temperature,alpha):optimizertorch.optim.Adam(student.parameters(),lrlr)teacher.to(device)student.to(device)teacher.eval()forepochinrange(1,epochs1):student.train()running_loss0.0forimages,labelsintrain_loader:imagesimages.to(device)labelslabels.to(device)optimizer.zero_grad()student_logitsstudent(images)withtorch.no_grad():teacher_logitsteacher(images)lossdistillation_loss(student_logits,teacher_logits,labels,temperature,alpha)loss.backward()optimizer.step()running_lossloss.item()*images.size(0)test_loss,test_accevaluate(student,test_loader,device)train_lossrunning_loss/len(train_loader.dataset)print(student_kd fepoch{epoch}: train_loss{train_loss:.4f}test_loss{test_loss:.4f}ftest_acc{test_acc:.4f}temperature{temperature}alpha{alpha})defmain():parserargparse.ArgumentParser()parser.add_argument(--data-dir,typePath,defaultPath(data))parser.add_argument(--dataset,choices[digits,mnist],defaultdigits)parser.add_argument(--batch-size,typeint,default128)parser.add_argument(--epochs-teacher,typeint,default3)parser.add_argument(--epochs-student,typeint,default3)parser.add_argument(--lr,typefloat,default1e-3)parser.add_argument(--temperature,typefloat,default4.0)parser.add_argument(--alpha,typefloat,default0.5,helpWeight for hard-label cross entropy.)parser.add_argument(--seed,typeint,default42)argsparser.parse_args()set_seed(args.seed)devicetorch.device(cudaiftorch.cuda.is_available()elsecpu)print(fdevice{device})train_loader,test_loaderbuild_loaders(args.data_dir,args.batch_size,args.dataset,args.seed)teacherTeacherCNN()student_baselineStudentCNN()student_kdStudentCNN()print(fteacher params{count_params(teacher):,})print(fstudent params{count_params(student_baseline):,})print(\n Train teacher )train_supervised(teacher,train_loader,test_loader,device,args.epochs_teacher,args.lr,teacher)print(\n Train student baseline )train_supervised(student_baseline,train_loader,test_loader,device,args.epochs_student,args.lr,student_baseline)print(\n Train student with knowledge distillation )train_distilled(student_kd,teacher,train_loader,test_loader,device,args.epochs_student,args.lr,args.temperature,args.alpha,)teacher_loss,teacher_accevaluate(teacher,test_loader,device)baseline_loss,baseline_accevaluate(student_baseline,test_loader,device)kd_loss,kd_accevaluate(student_kd,test_loader,device)print(\n Final result )print(fteacher: loss{teacher_loss:.4f}acc{teacher_acc:.4f}params{count_params(teacher):,})print(fstudent_baseline: loss{baseline_loss:.4f}acc{baseline_acc:.4f}params{count_params(student_baseline):,})print(fstudent_kd: loss{kd_loss:.4f}acc{kd_acc:.4f}params{count_params(student_kd):,})if__name____main__:main()直接运行命令为python train_mnist_kd.py --epochs-teacher 3 --epochs-student 3下载MNIST数据集后的运行命令为python train_mnist_kd.py --dataset mnist --epochs-teacher 3 --epochs-student 3

更多文章

前端开发 2026/4/30 6:13:08

我常常追忆过去

CSDN博客里程碑纪念！ 不知不觉，距离第一篇博客《洛谷P5189 [COCI 2009/2010 #5] ZUMA 题解》已经有 256 天了。算上这篇，已经有 72 篇文章了。作者是一名 OIer，可能比较懒，更新比较慢，但是会有一些高质…

2026 个人站长云服务器选择指南：高性价比 IDC 实测推荐对于个人开发者、学生站长、小程序搭建、测试环境、小型网站来说，选择一台稳定、便宜、灵活的云服务器至关重要。大厂云虽然稳定，但价格偏高；小厂商良莠不齐，很容…

张开发

前端开发 2026/4/30 4:07:24

算法打卡18

题目链接：https://leetcode.cn/problems/remove-all-adjacent-duplicates-in-string/ 视频讲解：https://www.bilibili.com/video/BV12a411P7mw 看到题目的第一想法： 括号匹配是典型的后进先出场景，第一…

张开发

知识蒸馏之交叉熵篇——代码实战

最新文章

告别JSON臃肿：用Apache Avro为你的Kafka或Hudi数据瘦身（附实战代码）

哔哩下载姬终极指南：如何简单快速下载B站8K视频的完整教程

《为什么现代大模型越做越失控？用「形神合一」拆解 AI 幻觉的本源病根与根治方案》前言

新概念英语第二册64_The Channel Tunnel

堆垛架循环助力物流，重庆西自达赋能汽配企业降本

[Python/数学模型]给大忙人看的速通三——图论优化

推荐文章

跨国团队必备：3步将飞书国际版文档转换为Markdown

Python测试中如何控制顺序_使用pytest-ordering自定义执行流

Python 协程池任务分发与错误处理

TestDisk PhotoRec数据恢复完整指南：5步高效找回丢失分区与文件

Moonlight-Switch技术方案：在Switch上实现专业级PC游戏串流

AAEON无风扇触控面板电脑在工业自动化中的应用

相关文章

如何为AMD 780M APU解锁2-3倍AI性能？ROCmLibs-for-gfx1103终极优化指南

企业内网必看：用U盘搞定Ubuntu服务器Docker离线部署（含依赖树分析）

OpenCode智能编程助手全面部署指南：从环境搭建到高级应用

大语言模型背后的秘密：从预训练到微调，揭秘LLM高效训练的核心技术（含QLoRA/ZeRO实战）

RBDdimmer：嵌入式AC相位调光库详解

新手零失败指南：利用快马ai轻松完成openclaw的ubuntu环境搭建

分享文章

更多文章

我常常追忆过去

前端微前端：Web Components 最佳实践

Android系统属性修改实用指南：MagiskHide Props Config深度解析与进阶配置技巧

视觉数学问题求解：多模态融合与图表理解技术

别再手动调参了！用VM算子封装你的PyTorch模型，实现工业视觉拖拽式部署

告别卡顿！在 VMware 16 上为 Ubuntu 16.04 优化性能的 5 个关键配置（CPU/内存/磁盘实战）

NVIDIA驱动死活装不上/卸不掉？别急着重装系统，先试试修复这个Windows服务

别再只会chmod 777了！Nginx 403错误的5个排查姿势，从日志到SELinux保姆级指南

仓储物流场景的工业配送和工业AMR品牌应该怎么选？

Lowdefy核心概念深度解析：Blocks、Operators、Actions和Requests的终极指南

2026 个人站长与开发者云服务器选择指南：性价比 IDC 推荐

算法打卡18