芯片开发学习笔记·十八——浮点数转换(convert)

张开发
2026/5/8 16:27:46 15 分钟阅读

分享文章

芯片开发学习笔记·十八——浮点数转换(convert)
浮点数(Floating-Point Number)就是计算机用来表示实数的一种编码方式。核心思想:科学计数法,就像我们写3.14 × 10⁸,计算机也用类似的形式:(-1)^符号位 × 1.尾数 × 2^(指数-偏置)"浮点"这个名字就来自这里——小数点的位置是浮动的,可以表示很大或很小的数,而不是像整数那样固定位数。三个组成部分组成:字段作用例子(FP32)符号位 S正数0,负数11 bit指数 E决定数的量级(范围)8 bits尾数 M决定精度(有效数字)23 bits一、常用浮点格式总览格式速览格式符号指数尾数偏置范围精度典型用途FP321b8b23b127±3.4×10³⁸~7位CPU/GPU 通用计算FP161b5b10b15±6.5×10⁴~3.3位GPU 推理、半精度训练BF161b8b7b127±3.4×10³⁸~2.3位AI 训练(TPU/GPU)FP8-E4M31b4b3b7±448—Hopper GPU 训练FP8-E5M21b5b2b15±57344—梯度存储INT81b(符号)———-128 ~ 127—边缘推理,INT8 量化完整参数表

更多文章