芯片开发学习笔记·十八——浮点数转换（convert）

张开发

• 2026/5/8 16:27:46 • 15 分钟阅读

分享文章

浮点数（Floating-Point Number）就是计算机用来表示实数的一种编码方式。核心思想：科学计数法，就像我们写3.14 × 10⁸，计算机也用类似的形式：(-1)^符号位 × 1.尾数 × 2^(指数-偏置)"浮点"这个名字就来自这里——小数点的位置是浮动的，可以表示很大或很小的数，而不是像整数那样固定位数。三个组成部分组成：字段作用例子（FP32）符号位 S正数0，负数11 bit指数 E决定数的量级（范围）8 bits尾数 M决定精度（有效数字）23 bits一、常用浮点格式总览格式速览格式符号指数尾数偏置范围精度典型用途FP321b8b23b127±3.4×10³⁸~7位CPU/GPU 通用计算FP161b5b10b15±6.5×10⁴~3.3位GPU 推理、半精度训练BF161b8b7b127±3.4×10³⁸~2.3位AI 训练（TPU/GPU）FP8-E4M31b4b3b7±448—Hopper GPU 训练FP8-E5M21b5b2b15±57344—梯度存储INT81b(符号)———-128 ~ 127—边缘推理，INT8 量化完整参数表

芯片开发学习笔记·十八——浮点数转换（convert）

最新文章

AI爬虫引爆代理IP产业：一场正在发生的数据粮草争夺战

终极免费指南：3分钟让Windows拥有macOS优雅鼠标指针体验

AISMM白皮书下载通道即将关闭：2026奇点智能技术大会首发仅开放48小时，附官方校验码与合规使用指南

QCC3071/QCC3081也能玩转LDAC？聊聊高通DSP开放带来的音频方案性价比革命

抖音内容批量下载终极指南：3步实现免费无水印下载

告别变砖！手把手教你用FPGA的ICAP原语实现安全在线升级（附Spartan-6代码）

推荐文章

全面掌握AssetRipper：从Unity资源提取到多平台部署的完整指南

LLM个性化评估技术：方法与实战解析

终极AI翻唱生成器AICoverGen：零代码实现专业级声线定制与歌曲翻唱

从流水灯到中断处理：手把手教你用Verilog在FPGA上玩转MIPS模型机

NVIDIA Omniverse Kit 106：云端OpenUSD应用开发指南

开发者如何将ChatGPT无缝集成到本地开发环境与工作流

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

SEER‘S EYE预言家之眼赋能微信小程序：打造在线语音狼人杀AI裁判

造相-Z-Image-Turbo LoRA实战手册：提示词模板库+LoRA组合使用技巧

Linux环境下用Docker Compose一键部署RuoYi-Cloud（附完整配置文件和脚本）

java微信小程序的过程性考核系统设计与实现

通义千问1.5-1.8B-Chat-GPTQ-Int4实战：构建个性化AI编程助手

MCP与VS Code插件集成：5个关键配置项+4类高频报错，95%开发者踩过的坑你避开了吗？

Qwen-Image惊艳作品集：Qwen-VL生成的30组高质量图文推理链（含错误分析与修正）

vLLM-v0.11.0镜像部署指南：开启预热优化，实现毫秒级首次响应

赢了所有争论，却输掉内心平静？

【超全】基于微信小程序的体育资讯平台【包括源码+文档+调试】

IoTBOT Arduino库：ESP32物联网机器人快速开发框架

Qwen3-ForcedAligner-0.6B快速体验：上传音频+文本，秒获词级时间戳JSON结果