当前位置：搜档网 › 浮点数42480000转换为10进制数

浮点数42480000转换为10进制数

IEEE浮点数表示法

-------------------------------------------------

float 共计32位(4字节)

则按照规定，浮点数的值用十进制表示为：＝(1+x)×

一个浮点数用二个字表示，具体如下（各个为0~31共32位）：31：符号s（0：正数1：负数）

23～30：指数e（按二进制计算得到－127）

0～22：尾数x（按二进制计算得到x）

注:

指数，一共8位，可以表示范围是0 ~ 255的无符号整数，也可以表示-128~127的有符号整数。但因为指数是可以为负的，所以为了统一把十进制的指数化为二进制时，指数都先加上127。

尾数的存储位为23位二进制数，由于没有存储最高位的1，所以实际有效位为24位。能表示的最大值10进制为0.999999

二进制小数转10进制方法如下：

小数点后的第1位，第2位，第3位，。。。。。。。。然后数值相加所谓2负几次方，即2的几次方的倒数，比如倒数第位，==0.125

浮点数42480000，2进制为

100 0010 0100 1000 0000 0000 0000 000

第30～23bit100 0010 =13即e=132

第22～0bit 100 1000 0000 0000 0000 000表示二进制的纯小数x=0. 1001000000000000000000

如上，(符号位s为0，略)

尾数小数点后倒数第1位为1，1=1=0.5 尾数倒数第4位为1，1=1=0.0625

浮点数42480000=｛1+（0.5+0.0625）｝（）=（1.5625）（）=（1.5625）

=50

单精度浮点数的转换和解析

1 单精度浮点数的转换和解析工业现场通信经常遇到浮点数解析的问题，如果需要自己模拟数据而又不懂浮点数解析的话会很麻烦！很久以前根据modbus 报文格式分析得到的，供大家参考。浮点数保存的字节格式如下：地址 +0 +1 +2 +3 内容 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 这里 S 代表符号位，1是负，0是正 E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。 M 24位的尾数保存在23位中，只存储23位，最高位固定为1。此方法用最较少的位数实现了较高的有效位数，提高了精度。零是一个特定值，幂是0 尾数也是0。浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：地址 +0 +1 +2 +3 内容0xC1 0x48 0x00 0x00 浮点数和十六进制等效保存值之间的转换相当简单。下面的例子说明上面的值-12.5如何转换。浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：地址 +0 +1 +2 +3 格式 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 二进制 11000001 01001000 00000000 00000000 十六进制 C1 48 00 00 从这个例子可以得到下面的信息：符号位是1 表示一个负数幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。尾数是后面的二进制数10010000000000000000000

IEEE浮点数的表示方法及规则

计算机组成原理课程作业报告解决的问题： IEEE浮点数的表示方法及规则班级： 10021101 学号： 2011302610 姓名：最天使日期： 2013年10月29日

一、什么是IEEE754标准 1．两种基本浮点格式：单精度和双精度； 2．两种扩展浮点格式：单精度扩展和双精度扩展； 3．浮点数运算的准确度要求：加、减、乘、除、平方、余数，将浮点格式的数舍入为整数值； 4．在十进制字符串和两种基本浮点格式之一的二进制浮点数格式之间的转换的准确度、单一性和一致性要求； 5．五种异常：乘、除、平方根、余数、在不同浮点格； 6．四种舍入方向： ①向最接近的可表示的值：Round(0.5) = 0; Round(1.5) = 2; Round(2.5) = 2; ②当有两个最接近的可表示的值时首选“偶数”值； ③向负无穷大（向下）：floor(1.324) = 1 floor(-1.324) = -2 ④向正无穷大（向上）以及向（截断）：C/C++ 函数ceil() ceil(1.324) = 2 Ceil(-1.324) = -1; 二、IEEE754表示浮点数的格式参数：类型存储位数偏移值数符S （位）阶码E （位）尾数M （位）总位数（位）十六进制十进制短实数 1 8 23 32 0X7FH +127 长实数 1 11 52 64 0X3FFH +1023 临时实数 1 15 64 80 0X3FFFH +16383 特殊情况：对于阶码为0或者255时，IEEE有特殊的规定: 1．如果E是0并且M是0，这个数+0（和符号位相关）； 2．如果E=2-1并且M是0，这个数是正负无穷大（和符号相关）； 3．如果E=2-1并且M不是0，这个数表示为不是一个数（NaN）。

32位浮点数与十进制转化

1 32位IEE754浮点格式对于大小为32-bit的浮点数（32-bit为单精度，64-bit浮点数为双精度，80-bit为扩展精度浮点数）， 1、其第31 bit为符号位，为0则表示正数，反之为复数，其读数值用s表示； 2、第30～23 bit为幂数，其读数值用e表示； 3、第22～0 bit共23 bit作为系数，视为二进制纯小数，假定该小数的十进制值为x；十进制转浮点数的计算方法：则按照规定，十进制的值用浮点数表示为：如果十进制为正，则s = 0，否则s = 1；将十进制数表示成二进制，然后将小数点向左移动，直到这个数变为1.x的形式即尾数，移动的个数即为指数。为了保证指数为正，将移动的个数都加上127，由于尾数的整数位始终为1，故舍去不做记忆。对3.141592654来说， 1、正数，s = 0； 2、3.141592654的二进制形式为正数部分计算方法是除以二取整，即得11，小数部分的计算方法是乘以二取其整数，得0.0010 0100 0011 1111 0110 1010 1000，那么它的二进制数表示为11.0010 0100 0011 1111 0110 1010 1； 3、将小数点向左移一位，那么它就变为1.1001 0010 0001 1111 1011 0101 01，所以指数为1+127=128，e = 128 = 1000 0000； 4、舍掉尾数的整数部分1，尾数写成0.1001 0010 0001 1111 1011 0101 01，x = 921FB6 5、最后它的浮点是表示为0 1000 0000 1001 0010 0001 1111 1011 0101 = 40490FDA //-------------------------------------------- // 十进制转换为32位IEE754浮点格式 //-------------------------------------------- void ConvertDexToIEE754(float fpointer,ModRegisterTpyedef *SpModRegister) { double integer,decimal; unsigned long bininteger,bindecimal; Uint8 _power,i; decimal = modf(fpointer,&integer); if(decimal || integer) { bindecimal = decimal * 0x800000; //2^23 while((bindecimal & 0xff800000) > 0) bindecimal >>= 1; if(integer > 0) { bininteger = integer; for(i=0;i<32;i++) //计算整数部分的2的幂指数 { if(bininteger&0x1) _power = i; bininteger >>= 0x1; } bininteger = integer; bininteger &= ~(0x1 << _power); //去掉最高位的1 if(_power >= 23) //如果幂指数>23 则舍弃小数位部分 { bininteger >>= (_power-23); bindecimal = 127+_power; bininteger |= bindecimal << 23; } else { bininteger <<= (23 - _power); bindecimal >>= _power; bininteger |= bi ndecimal; bindecimal = 127+_power; bininteger |= bindecimal << 23; } } else if(integer == 0) { bindecimal <<= 9; _power = 0; bininteger = bindecimal; while(bininteger == ((bindecimal<<1)>>1)) { _power++; bindecimal <<= 0x1; bininteger = bindecimal; }

浮点数的二进制表示

浮点数的二进制表示基础知识：十进制转十六进制；十六进制转二进制；了解：目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法，用符号、指数和尾数来表示，底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格：符号位阶码尾数长度 float 1 8 23 32 double 1 11 52 64 以下通过几个例子讲解浮点数如何转换为二进制数例一：已知：double类型38414.4。求：其对应的二进制表示。分析：double类型共计64位，折合8字节。由最高到最低位分别是第63、62、61、……、0位：最高位63位是符号位，1表示该数为负，0表示该数为正； 62-52位，一共11位是指数位； 51-0位，一共52位是尾数位。步骤：按照IEEE浮点数表示法，下面先把38414.4转换为十六进制数。把整数部和小数部分开处理:整数部直接化十六进制：960E。小数的处理: 0.4=0.5*0+0.25*1+0.125*1+0.0625*0+…… 实际上这永远算不完！这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术：最高位的1不写入内存（最终保留下来的还是52位）。如果你够耐心，手工算到53位那么因该是： 38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2) 科学记数法为：1.0010110000011100110101010101010101010101010101010101，右移了15位，所以指数为15。或者可以如下理解：

32位浮点数转换为十进制

流量计计算机通过485端口以MODBUS协议把内部IEEE32位浮点数传送到DCS的数据经过研究试验，其数据格式如下数据请求依次为：十六进制从站地址：01；读命令：03；数据起始高位地址：0F；数据起始低位地址：A0；（0FA0=4000即地址44001）；数据长度高位：00；数据长度低位：28；（0028=40即40个地址）；CRC效验码：46,E2 数据应答格式：从站地址：01；读命令反馈：03；数据长度：50；第一个地址：69；C0；48；A9；第二个地址：C5；00；48；A2；以下类推，直到最后两位CRC：E8；86 第一个地址：69；C0；48；A9是如何换算为346958的呢？流量计发送的是IEEE标准的32位浮点数首先要把69；C0；48；A9进行高低16位交换变成：48；A9；69；C0 变为32位二进制数：01001000 10101001 01101001 11000000 其中最高位为0，代表是正数接下来的八位：10010001变成十进制是145，根据IEEE规范应减去127得18，这是小数点右移的位数；剩下的23位是纯二进制小数即：0.0101001 01101001 11000000 加1后得1.0101001 01101001 11000000 小数点右移18位后得10101001 01101001 110.00000 变为十进制得346958 其它地址的32位浮点数计算方法同上标题:《IEEE754 学习总结》发信人:Vegeta 时间:2004-11-11,10:32 详细信息: 一：前言二：预备知识三：将浮点格式转换成十进制数四：将十进制数转换成浮点格式（real*4）附：IEEE754 Converte 1.0介绍一：前言

浮点数的表示和基本运算

浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数 S P M 其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知 S P M表示公式偏移量 1823(-1)S*2(P-127)*1.M127 11152(-1)S*2(P-1023)*1.M1023 以单精度浮点数为例，可以得到其二进制的表示格式如下 S(第31位)P(30位到 23位) M(22位到 0位) 其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。

（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？根据上面的约定，我们可以知道阶码P的最大值是11111110（这个值是254，因为255用于特殊的约定，那么对于可以精确表示的数来说，254就是最大的阶码了）。尾数的最大值是11111111111111111111111。那么这个最大值就是：0 11111110 11111111111111111111111。也就是 2(254-127) * (1.11111111111111111111111)2 = 2127 * (1+1-2-23) = 3.40282346638529E+38 从上面的双精度表示可以看出，两者是一致的。最小的数自然就是- 3.40282346638529E+38。对于最接近于0的数，根据IEEE754的约定，为了扩大对0值附近数据的表示能力，取阶码P = -126，尾数 M = (0.00000000000000000000001)2 。此时该数的二进制表示为：0 00000000 00000000000000000000001 也就是2-126 * 2-23 = 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon 是一致的。如果我们要精确表示最接近于0的数字，它应该是 0 00000001 00000000000000000000000 也就是：2-126 * (1+0) = 1.17549435082229E-38。 3 浮点数的精度问题浮点数以有限的32bit长度来反映无限的实数集合，因此大多数情况下都是一个近似值。同时，对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似

浮点转定点方法总结

浮点转定点方法总结 —孔德琦

目录定点运算方法................................................ 错误!未定义书签。数的定标 ............................................... 错误!未定义书签。 C语言：从浮点到定点 ................................. 错误!未定义书签。加法.................................................... 错误!未定义书签。乘法..................................................... 错误!未定义书签。除法..................................................... 错误!未定义书签。三角函数运算............................................ 错误!未定义书签。开方运算................................................ 错误!未定义书签。附录...................................................... 错误!未定义书签。附录1：定点函数库...................................... 错误!未定义书签。附录2：正弦和余弦表..................................... 错误!未定义书签。

浮点32位16进制和10进制转换

小数部分(0.625)的计算: 0.625*2=1.25--------1 0.25 *2=0.5 ----------0 0.5 *2=1.0 -----------1 所以用二进制科学表示方式为:1.001101*2^3 ) 实数与浮点数之间的变换举例例一：已知一个单精度浮点数用16进制数表示为： 0xC0B40000，求此浮点数所表达的实数。先转换为二进制形式(注意:对于负数二进制补码转换成十进制一定要:先取反,后加1) C 0 B 4 0 0 0 0 1100 0000 1011 0100 0000 0000 0000 0000 按照浮点数格式切割成相应的域1 1000 0001 01101 000000000000000000 经分析：符号域1 意味着负数；指数域为129 意味着实际的指数为2 （减去偏差值127）；尾数域为01101 意味着实际的二进制尾数为1.01101 （加上隐含的小数点前面的1）。所以，实际的实数为： = -1.01101 × 2^ 2=- ( 1*2^0 + 1*2^(-2) + 1*2^(-3) + 1*2^(-5) ) × 2^2 = -(1+0.25+0.125+0.03125)*4 = -1.40625*4 = -5.625 例二：将实数-9.625变换为相应的浮点数格式。 1) 求出该实数对应的二进制：1001.101，用科学技术法表达为：-1.001101 ×2^3； 2) 因为负数，符号为1； 3) 指数为3，故指数域的值为3 + 127 = 130，即二进制的10000010； 4) 尾数为1.001101，省略小数点左边的1后为001101，右侧0补齐，补够23位，最终尾数域为：00110100000000000000000； 5) 最终结果：1 10000010 00110100000000000000000，用16进制表示： 0xC11A0000。

浮点数在内存中的表示方法

浮点数在内存中的表示方法浮点数保存的字节格式如下：地址+0 +1 +2 +3 内容SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 这里 S 代表符号位，1是负，0是正 E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。 M 24位的尾数保存在23位中，只存储23位，最高位固定为1。此方法用最较少的位数实现了较高的有效位数，提高了精度。零是一个特定值，幂是0 尾数也是0。浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：地址+0 +1 +2 +3 内容0xC1 0x48 0x00 0x00 浮点数和十六进制等效保存值之间的转换相当简单。下面的例子说明上面的值-12.5如何转换。浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：地址+0 +1 +2 +3 格式SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM 二进制11000001 01001000 00000000 00000000 十六进制C1 48 00 00 从这个例子可以得到下面的信息：符号位是1 表示一个负数幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。尾数是后面的二进制数10010000000000000000000 在尾数的左边有一个省略的小数点和1,这个1在浮点数的保存中经常省略,加上一个1和小数点到尾数的开头,得到尾数值如下: 1.10010000000000000000000

接着,根据指数调整尾数.一个负的指数向左移动小数点.一个正的指数向右移动小数点.因为指数是3,尾数调整如下: 1100.10000000000000000000 结果是一个二进制浮点数，小数点左边的二进制数代表所处位置的2的幂，例如：1100表示 (1*2^3)+(1*2^2)+(0*2^1)+(0*2^0)=12。小数点的右边也代表所处位置的2的幂，只是幂是负的。例如：.100...表示 (1*2^(-1))+ (0*2^(-2))+(0*2^(-2))...=0.5。这些值的和是12.5。因为设置的符号位表示这数是负的，因此十六进制值 0xC1480000表示-12.5。所有的C/C++编译器都是按照IEEE（国际电子电器工程师协会）制定的IEE E 浮点数表示法来进行运算的。这种结构是一种科学表示法，用符号（正或负）、指数和尾数来表示，底数被确定为2，也就是说是把一个浮点数表示为尾数乘以2的指数次方再加上符号。下面来看一下具体的规格: 符号位指数位小数部分指数偏移量单精度浮点数 1 位[31] 8位 [30-23] 23位 [22-00] 127 双精度浮点数 1 位[63] 11 位[62-52] 52 位[51-00] 1023 我们以单精度浮点数来说明：指数是8位，可表达的范围是0到255 而对应的实际的指数是－127到＋128 这里特殊说明，－127和＋128这两个数据在IEEE当中是保留的用作多种用途的－127表示的数字是0 128和其他位数组合表示多种意义，最典型的就是NAN状态

十进制数和单精度浮点数的相互转换

将十进制数转换成浮点格式（real*4） [例1]：十进制26.0转换成二进制 11010.0 规格化二进制数 1.10100*2^4 计算指数 4+127=131 符号位指数部分尾数部分 0 10000011 10100000000000000000000 以单精度（real*4）浮点格式存储该数0100 0001 1101 0000 0000 0000 0000 0000 0x41D0 0000 [例2]： 0.75 十进制0.75转换成二进制 0.11 规格化二进制数 1.1*2^-1 计算指数 -1+127=126 符号位指数部分尾数部分 0 01111110 10000000000000000000000 以单精度（real*4）浮点格式存储该数0011 1111 0100 0000 0000 0000 0000 0000 0x3F40 0000 [例3]： -2.5 十进制-2.5转换成二进制 -10.1 规格化二进制数 -1.01*2^1 计算指数 1+127=128 符号位指数部分尾数部分 1 10000000 01000000000000000000000 以单精度（real*4）浮点格式存储该数1100 0000 0010 0000 0000 0000 0000 0000 0xC020 0000

将浮点格式转换成十进制数 [例1]： 0x00280000（real*4）转换成二进制 00000000001010000000000000000000 符号位指数部分（8位）尾数部分 0 00000000 01010000000000000000000 符号位=0；因指数部分=0，则：尾数部分M为m： 0.01010000000000000000000=0.3125 该浮点数的十进制为： (-1)^0*2^(-126)*0.3125 =3.6734198463196484624023016788195e-39 [例2]： 0xC04E000000000000（real*8）转换成二进制1100000001001110000000000000000000000000000000000000000000000000 符号位指数部分（11位）尾数部分 1 10000000100 1110000000000000000000000000000000000000000000000000 符号位=1；指数=1028，因指数部分不为全'0'且不为全'1'，则：尾数部分M为1+m：1.1110000000000000000000000000000000000000000000000000=1.875 该浮点数的十进制为： (-1)^1*2^(1028-1023)*1.875 =-60

非标准浮点数和标准的浮点数之间的转换

地址：安徽省、合肥市、肥东县、店埠镇，合肥市福来德电子科技有限公司Microchip 公司单片机所采用的浮点数格式是IEEE-754标准的变异型。 1、变异型32位浮点数格式为:：阶码E （8位），符号S （1位），尾数M （23位）变异型32位浮点数的二进制格式为:：E7，E6，E5，E4，E4，E3，E2，E1，E0，S ，M22，M21，M20，M19，M18，M17，M16，M15，M14，M13，M12，M11，M10，M9，M8，M7，M6，M5，M4，M3，M2，M1，M0共计32位值。存储模式：大端格式，高字节存放在低地址位置。 2、标准型32位浮点数格式为:：符号S （1位），阶码E （8位），尾数M （23位）标准型32位浮点数的二进制格式为:：S ，E7，E6，E5，E4，E4，E3，E2，E1，E0，M22，M21，M20，M19，M18，M17，M16，M15，M14，M13，M12，M11，M10，M9，M8，M7，M6，M5，M4，M3，M2，M1，M0共计32位值。存储模式：小端格式，高字节存放在高地址位置。 #include<18f6720.h> //#include //包含头文件string.h #include //包含头文件stdlib.h union { int8 b[4]; int32 d; //b[3]和d 的高8位值相等;b[0]和d 的低8位值相等; float f; }IEEE_FLOAT_DATA; //IEEE 标准型浮点数; union { int8 b[4]; int16 c[2]; int32 d; //b[3]和d 的高8位值相等;b[0]和d 的低8位值相等; float f; }IEEE_aberrance_FLOAT_DATA; //IEEE 变异型浮点数; //函数功能:将x 中的IEEE-754标准的浮点数转换为IEEE-754标准的变异型浮点数 //输入参数IEEE_FLOAT_DATA.d 中是标准型浮点数;IEEE_FLOAT_DATA.d=0xC148000 //输出参数:IEEE_FLOAT_DATA.f 存放为变异型浮点数据;IEEE_FLOAT_DATA.d 为变异型浮点数的16进制数据; void convert_IEEE_FLOAT_DATA_to_IEEE_aberrance_FLOAT_DATA() { //IEEE_FLOAT_DATA.d=x; int1 bit_value; int8 temp; if( bit_test(IEEE_FLOAT_DATA.b[2],7) ) bit_value=1; //获取阶码E0上的值； else bit_value=0; bit_value=shift_left(&IEEE_FLOAT_DATA.b[3],1,bit_value); //左移1位，将E0上的值移入，获取符号值S ； if(bit_value) bit_set(IEEE_FLOAT_DATA.b[2],7); //修改符号值S else bit_clear(IEEE_FLOAT_DATA.b[2],7); //修改符号值S ////////////////////////存储模式 ////////////

浮点数转换为字符串

串口通讯中传递的数据格式不外两种：ASCII码（即可见字符形式）和二进制数据格式（对应Modbus协议中有ASCII模式和RTU模式）。最初的想法是把浮点数的各位分别提取出来，保存成一个各元素都是ASCII码的数组，然后通过串口发送出去，对方接收到这个数组后再相应地组合成原来的浮点数。这是以前写过的一段代码： //################################################################ // 函数名：void Float2Char(float Value,char *array) // 描述：将浮点数的各个位的数值转换成字符串，通过串口发送至上位机显示 // 参数：float Value为欲转换的正数浮点数值，转换结果保存在字符数组*array里 //################################################################ void Float2Char(float Value,char *array) { Uint16 IntegerPart; float DecimalPart; Uint16 i = 0; Uint16 j = 0; char temp; //分离整数部分与小数部分： //整数部分保存在IntegerPart中 //小数部分保存在DecimalPart中 if (Value>=1) { IntegerPart = (Uint16)Value; DecimalPart = Value-IntegerPart; } else { IntegerPart = 0; DecimalPart = Value-IntegerPart; } //转换整数部分 if (IntegerPart == 0) { array[0] = 0+48; array[1] = '.'; i = 1; } else { while(IntegerPart>0) {

浮点数表示方法的分析研究

浮点数表示方法的分析研究.txt13母爱是迷惘时苦口婆心的规劝；母爱是远行时一声殷切的叮咛；母爱是孤苦无助时慈祥的微笑。浮点数表示方法的分析研究 [日期：2006-06-10] 来源：作者： [字体：大中小] 摘要：在《计算机组成原理》课程的教学中，浮点数的表示与运算是一个重点，也是难点。本文对浮点数的一般表示及标准表示的方法、范围、存储格式等进行了比较深入地比较、分析和研究，力求给读者一个清晰的概述。关键词：浮点数，表示方法，符号，尾数，阶码，范围《计算机组成原理》课程是计算机科学与技术专业的一门必修专业基础课，主要是讲述计算机系统几大硬件的组成结构和工作原理。在其核心部件——运算器(Arithmetician)的运算机制中，浮点数（Floating-point）的表示与运算方法是一个重点，也是难点，笔者在查阅了大量中外文文献的基础上，根据多年的教学实践经验，对浮点数的表示方法、规格化处理方法、表示范围进行了比较详细地分析研究，以方便学生的学习，共同行们参考。 1、浮点数的一般表示方法在数学中，表示一个浮点数需要三要素：尾数（mantissa）、指数（exponent，又称阶码）和基数（base），都用其第一个字母来表示的话，那么任意一个浮点数N可以表示成下列形式：N=M×BE，例如N1=1.234×10-6， N2= -0.001011×2011等，同样的数字对于不同的基数是不相同的，移动小数点的位置，其指数相应地跟着变化。在计算机中，表示一个浮点数，同样需要以上三要素，只是阶码与尾数一同存储，基数常有2、8、16等数值，下面的讨论以2为基数进行。将浮点数放在计算机中存储时，尾数M用定点（Fixed-point）小数的形式，阶码E用有符号整数形式，改变M中小数点的位置，同时需要修改E的值，可以给出有效数字（significant number）的位数，因此M和E决定了浮点数的精度（precision），E指明小数点在B进制数据中的位置，因而E和B决定了浮点数的表示范围（range），浮点数的符号（Sign）是单独考虑，设阶码有m+1位，尾数有n+1位，则一般浮点数的表示方法如图1所示，其中，下标s代表符号位，下标数字代表数字所处的位数，尾数的小数点默认最高数字位M1之前。图（b）是将尾数的符号位提在最前面，其它部分与图（a）一样，是目前常用的一种表示形式。图1 浮点数的一般表示形式在这种表示方法中，阶码的二进制编码（binary code）一般是原码（sign magnitude）、补码（twos complement）或移码（bias），尾数的编码一般是原码或补码。 2、浮点数的规格化处理在浮点数系统中，小数点的浮动使数值的表示不能惟一，从而给数据处理带来困难，因此有必要使浮点数的表示与存储有一定的标准，考虑到阶码、尾数之间的关系，常将尾数的最高数字位是有效值的数值称为规格化（normalization），由于尾数可以是原码或补码，所以有两种规格化的形式，如表1所示。

浮点数(单精度浮点数与双精度浮点数)在计算机中的存储

浮点数在计算机中的存储十进制浮点数格式：浮点数格式使用科学计数法表示实数。科学计数法把数字表示为系数(coefficient)(也称为尾数(mantissa))，和指数(exponent)两部分。比如3.684*10^2. 在十进制中，指数的基数为10，并且表示小数点移动多少位以生成系数。每次小数点向前移动时，指数就递增；每次小数点向后移动时，指数就递减。例如，25.92 可表示为2.592 * 10^1，其中2.592 是系数，值10^1 是指数。必须把系数和指数相乘，才能得到原始的实数。另外，如0.00172 可表示为1.72*10^-3，数字1.72 必须和10^-3 相乘才能获得原始值。二进制浮点格式：计算机系统使用二进制浮点数，这种格式使用二进制科学计数法的格式表示数值。数字按照二进制格式表示，那么系数和指数都是基于二进制的，而不是十进制，例如1.0101*2^2. 在十进制里，像0.159 这样的值，表示的是0 + (1/10) + (5/100) + (9/1000)。相同的原则也适用二进制。比如，1.0101 乘以2^2 后，生成二进制值101.01 ，这个值表示二进制整数5，加上分数(0/2) + (1/4) 。这生成十进制值5.25 。下表列出几个二进制编写二进制浮点值时，二进制通常被规格化了。这个操作把小数点移动到最左侧的数位，并且修改指针进行补偿。例如1101.011 变成1.101011*2^3 浮点数的存储 ?IEEE 标准754 浮点数标准使用3 个成分把实数定义为二进制浮点值： ?符号 ?有效数字

?指数符号位表示值是负的还是正的。符号位中的1 表示负值，0 表示正值。有效数字部分表示浮点数的系数(coefficient)(或者说尾数(mantissa))。系数可以是规格化的(normalized)，也可以是非规格化的(denormalized)。所谓规格化，就是任何一个数的科学计数法的表示都可为1.xxx*2^n，既然小数点左边的一位都是1，就可以把这一位省略。单精度浮点数23bit的尾数部分，可表示的精度却为24位，道理就在这里。指数表示浮点数的指数部分，是一个无符号整数。因为指数值可以是正值，也可以是负值，所以通过一个偏差值对它进行置偏，及指数的真实值=指数部分的整数—偏差值。对于32位浮点数，偏差值=127；对于64位浮点数，偏差值=1023. 浮点数的这3 个部分被包含在固定长度的数据格式之内。IEEE 标准754 定义了浮点数的两种长度：32位单精度和64位双精度可以用于表示有效数字的位的数量决定精度。下图显示了两种不同精度类型的位布局：单精度浮点使用23 位有效数字值。但是，浮点格式假设有效数字的整数部分永远为1 ，并且不在有效数字值中使用它。这样实际上有效数字的精度达到了24 位。指数使用8 位值，它的范围从0~255，称为移码指数，意思是必须从指数中减去一个数(称为偏移量或者是偏差值)，对单精度浮点数而言，这个值是127 。当指数是0和255时，指数由别的含义，因此实际指数的范围是从-126 到+127 (二进制指数)，这样整个浮点数的范围则为：(1.18 * 10^-38～1.0×2……-126 到3.40 * 10^38～1.1……1×2^127)。 ?指数0和255用于特殊用途。如果指数从1变化到254，则由s（符号位）、e（指数）和f（有效数）来表示的数为： ?

浮点数表示方法与运算

在计算机系统的发展过程中，曾经提出过多种方法表达实数，典型的比如定点数。在定点数表达方式中，小数点位置固定，而计算机字长有限，所以定点数无法表达很大和很小的实数。最终，计算机科学发展出了表达范围更大的表达方式——浮点数，浮点数也是对实数的一种近似表达。 1.浮点数表达方式我们知道任何一个R 进制数N 均可用下面的形式表示：N R =±S ×R ±e 其中，S—尾数，代表N 的有效数字； R—基值，通常取2、8、16；e—阶码，代表N 的小数点的实际位置(相当于数学中的指数)。比如一个十进制数的浮点表达1.2345×102，其中1.2345为尾数，10为基数，2为阶码。一个二进制数的浮点表达0.001001×25，0.001001为尾数，2为基数，5为阶码；同时0.001001×25也可以表示成0.100100×23，0.100100为尾数，2为基数，3为阶码。浮点数就是利用阶码e 的变化达到浮动小数点的效果，从而灵活地表达更大范围的实数。 2.浮点数的规格化一个数用浮点表示时，存在两个问题：一是如何尽可能多得保留有效数字；二是如何保证浮点表示的唯一。对于数0.001001×25，可以表示成0.100100×23、0.00001001×27等等，所以对于同一个数，浮点有多种表示(也就是不能唯一表示)。另外，如果规定尾数的位数为6位，则0.00001001×27会丢掉有效数字，变成0.000010×27。因此在计算机中，浮点数通常采用规格化表示方法。当浮点数的基数R 为2，即采用二进制数时，规格化尾数的定义为：1/2<=|S|<1。若尾数采用原码(1位符号位+n 位数值)表示，[S]原=S f S 1S 2S 3…S n (S f 为符号位的数符)，则满足S 1=1的数称为规格化数。即当尾数的最高有效位S 1=1，[S]原=S f 1S 2S 3…S n ,表示该浮点数为规格化数。对0.001001×25进行规格化后，表示为0.100100×23。 3.浮点数的表示范围求浮点数的表示范围，实质是求浮点数所能表示的最小负数、最大负数、最小正数和最大正数。

浮点数的二进制表示学习笔记

文章1：单双精度浮点数的IEEE标准格式目前大多数高级语言（包括C）都按照IEEE-754标准来规定浮点数的存储格式，IEEE754规定，单精度浮点数用4字节存储，双精度浮点数用8字节存储，分为三个部分：符号位、阶和尾数。阶即指数，尾数即有效小数位数。单精度格式阶占8位，尾数占24位，符号位1位，双精度则为11为阶，53位尾数和1 51 0 细心的人会发现，单双精度各部分所占字节数量比实际存储格式都了一位，的确是这样，事实是，尾数部分包括了一位隐藏位，允许只存储23位就可以表示24位尾数，默认的1位是规格化浮点数的第一位，当规格化一个浮点数时，总是调整它使其值大于等于1而小于2，亦即个位总是为1。例如1100B，对其规格化的结果为1.1乘以2的三次方，但个位1并不存储在23位尾数部分内，这个1是默认位。阶以移码的形式存储。对于单精度浮点数，偏移量为 127（7FH），而双精度的偏移量为1023（3FFH）。存储浮点数的阶码之前，偏移量要先加到阶码上。前面例子中，阶为2的三次方，在单精度浮点数中，移码后的结果为127+3即130（82H），双精度为 1026（402H）。浮点数有两个例外。数0.0存储为全零。无限大数的阶码存储为全

1，尾数部分全零。符号位指示正无穷或者负无穷。 motorola 的cpu按big endian顺序排列。浮点数的二进制表示学习笔记基础知识：十进制转十六进制；十六进制转二进制； IEEE制定的浮点数表示规则；了解：目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行 float,double运算。这种结构是一种科学计数法，用符号、指数和尾数来表示，底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格：符号位阶码尾数长度 float 1 8 23 32 double 1 11 52 64 以下通过几个例子讲解浮点数如何转换为二进制数

编写一个程序,将用小数表示的浮点数,转换成科学计数法的形式输出.输入的数据没有

不知道你问什么语言 Java：浮点数输出，不显示成科学计数法 BigDecimal bg=new BigDecimal("3.456785E-8"); System.out.println(bg.toPlainString()); C： public abstract class ScienceCount { public static string KXJSF(double num) { double bef = System.Math.Abs(num); int aft = 0; while (bef >= 10 || (bef < 1 && bef != 0)) { if (bef >= 10) { bef=bef/10; aft++; } else { bef=bef*10; aft--; } } Return string.Concat(num >=0 ?"" :"-",ReturnBef(bef),"E",ReturnAft(aft)); } ///

/// 有效数字的处理 ///

/// 有效数字 /// 三位有效数字，不足则补零 public static string ReturnBef(double bef) {

if (bef.ToString() != null) { char[] arr = bef.ToString().ToCharArray(); switch (arr.Length) { case 1: case 2: return string.Concat(arr[0], ".", "00"); break; case 3: return string.Concat(arr[0] + "." + arr[2] + "0"); break; default: return string.Concat(arr[0] + "." + arr[2] + arr[3]); break; } } else { return "000"; } } ///

/// 幂的处理 ///

/// 幂数 /// 三位幂数部分，不足则补零 public static string ReturnAft(int aft) { if (aft.ToString() != null) { string end; char[] arr = System.Math.Abs(aft).ToString().ToCharArray(); switch (arr.Length) { case 1: end = "00" + arr[0];