Q1:int类型在内存中是以何种方式存储的?
要解决这个问题,我们需要首先比较深入地理解下int类型。
本文中的int类型的相关数据都以32位操作系统下的VC++6.0编译器环境为准。在下表中可以看到,int类型表示带有符号的整型,而unsigned int类型为无符号的整型。
类型名称 | 占字节数 | 取值范围 |
int | 4B | -2^31~2^31-1 |
unsigned int | 4B | 0 ~ 2^32 |
1、占用的比特位数量
在32位操作系统下,两者都是占用4个字节,每个字节有8个比特位,因此有32个0-1的二进制位数。两者的不同在于,int类型有正负号(±)的存在,需要比unsigned int类型多消耗一个位数。
2、符号的表示方法
在所有被int类型占用的比特位中,左起第一个位就是符号位。int类型的符号位上,0表示正数,1表示负数。在32位操作系统下,其余后面31位是数值位。
3、数字0的表示方法
按照上面提到的符号,我们有了两种0的表示方法,即“+0”和“-0”。
实际上,在32位系统下int类型中,我们计算机已经强行规定了这种情况,数字0采用“+0”的表示方法,即00000000 00000000 00000000;而“-0”这个特殊的数字被定义为了-2^31。
因此我们看到32位系统下int类型的取值范围中,负数部分比正数部分多了一个数字,正数的最大取值是2^31-1,而负数的最小取值是-2^31。正数部分之所以要减去1,是因为被数字0占用了,而负数部分不需要用来表示0,因此原本的“-0”就用来表示-2^31这个数字。
那么是不是实现了上面已经提到的int类型的深入理解,我们就可以知道内存中int类型的数据表达了呢?
比如int类型的数字“-1”,按照上面的理解方式,在内存中32个比特位上应该是这样子的:10000000 00000000 00000001,左边第一个1表示负号,后面31位表示数值部分“1”。实际情况并不是这样。这里就需要引入“补码”这个概念了。
Q2:什么是“补码”?
要回到这个问题,得额外补充两个概念,“原码”和“反码”。
计算机中的符号数有三种表示方法,即原码、反码和补码。三种表示方法均有符号位和数值位两部分,符号位都是用0表示“正”,用1表示“负”,而数值位,三种表示方法各不相同。
1、原码(true form)
原码,是计算机中一种对数字的二进制定点表示方法。原码表示法在数值前面前面有一位符号位(即最高位为符号位),正数该位为0,负数该位为1(0有两种表示:+0和-0),其余位表示数值的大小。
怎么样,是不是觉得眼熟,没错!Q1中结尾提到的int类型数值“-1”的32位二进制就是原码,即10000000 00000000 00000001。与之对应的,正数“+1”就是00000000 00000000 00000001。
那么为何不用原码在内存中表示数值呢?
我们举个例子(以8位二进制表示)
十进制 | 原码 |
1 | 0000 0001 |
-1 | 1000 0001 |
结果(原码) | 1000 0010 |
结果(十进制) | -2 |
上述结果换算成十进制为-2,这显然出错了。这是由于计算机在计算时以加法进行计算的算法更简便,减法先转换为负数,再进行加法运算。因此,原码的符号位不能直接参与运算。
总结:原码是有符号数的最简单的编码方式,便于输入输出,但作为代码加减运算时较为复杂,故计算机一般不采用这种编码方式存储符号数。
2、反码(ones’ complement)
首先我们来了解下反码表示法的规定:“正数的反码与其原码相同;负数的反码是对其原码逐位取反,但符号位除外。”
什么意思呢?举个例子说明下:
- 对于正数和“+0”而言,其原码本身就是反码,例如 8位二进制“+1”,其原码与反码都是00000001;
- 对于负数和“-0”而言,符号位与原码中一样,保持不变,其余位数逐位取反,1换成0,0换成1,例如 “-1”,其8位二进制原码是1000 0001,其反码是1111 1110;
那么我们是否已经可以正常进行运算了呢?
我们举个三个例子:
例一:1+2=3(以8位二进制表示)
十进制 | 原码 | 反码 |
1 | 0000 0001 | 0000 0001 |
2 | 0000 0010 | 0000 0010 |
结果(反码) | 0000 0011 | |
结果(原码) | 0000 0011 | |
结果(十进制) | 3 |
计算结果正确。
例二:1+(-2)=-1
十进制 | 原码 | 反码 |
1 | 0000 0001 | 0000 0001 |
-2 | 1000 0010 | 1111 1101 |
结果(反码) | 1111 1110 | |
结果(原码) | 1000 0001 | |
结果(十进制) | -1 |
计算结果正确。
例三:1+(-1)=0
十进制 | 原码 | 反码 |
1 | 0000 0001 | 0000 0001 |
-1 | 1000 0001 | 1111 1110 |
结果(反码) | 1111 1111 | |
结果(原码) | 1000 0000 | |
结果(十进制) | -0 |
计算结果为-0,问题来了,由于-0的存在,使得二进制与十进制的互换不再是一一对应的关系。
总结:由于-0这个问题的存在,会使得计算机需要增加额外的物理硬件配合运算,所以在计算机发展的早期就已经抛弃了使用反码储存数据。
3、补码
补码正是基于反码的“-0”问题诞生的,可以解决这个问题。
补码的计算方法是:正数和+0的补码是其本身,负数则先计算其反码,然后反码加上1,得到补码。
补码换算为原码的过程中,如果补码是正数或者+0的补码,则其原码就是补码本身;如果补码是负数或者-0的补码,则其原码的计算方法是,先将补码减掉1,得到反码,再将反码取反,得到原码。
以上的说法有些绕,但是补码的算法应该已经说清楚了。下面举一些例子。
例一:1+(-1)=0
十进制 | 原码 | 反码 | 补码 |
1 | 0000 0001 | 0000 0001 | 0000 0001 |
-1 | 1000 0001 | 1111 1110 | 1111 1111 |
结果(补码) | 0000 0000 | ||
结果(反码) | 0000 0000 | ||
结果(原码) | 0000 0000 | ||
结果(十进制) | +0 |
计算结果正确,+0即是数字0的唯一表示。
例二:1+2=3
十进制 | 原码 | 反码 | 补码 |
1 | 0000 0001 | 0000 0001 | 0000 0001 |
2 | 0000 0010 | 0000 0010 | 0000 0010 |
结果(补码) | 0000 0011 | ||
结果(反码) | 0000 0011 | ||
结果(原码) | 0000 0011 | ||
结果(十进制) | 3 |
计算结果正确。
例三:1+(-2)=-1
十进制 | 原码 | 反码 | 补码 |
1 | 0000 0001 | 0000 0001 | 0000 0001 |
-2 | 1000 0010 | 1111 1101 | 1111 1110 |
结果(补码) | 1111 1111 | ||
结果(反码) | 1111 1110 | ||
结果(原码) | 1000 0001 | ||
结果(十进制) | -1 |
计算结果正确。
特别地,我们加入例四:(-1)+(-127)=-128
我们知道8位二进制的符号数的取值范围是(-2^7)~(2^7-1),即-128~127。
十进制 | 原码 | 反码 | 补码 |
-1 | 1000 0001 | 1111 1110 | 1111 1111 |
-127 | 1111 1111 | 1000 0000 | 1000 0001 |
结果(补码) | 1000 0000 | ||
结果(反码) | |||
结果(原码) | |||
结果(十进制) | -128 |
由于补码1000 0000具有特殊性,计算机在编写底层算法时,将其规定为该取值范围中的最小数-128,其值与(-1)+(-127)的计算结果正好符合。
补充一点,8位二进制补码1000 0000没有对应的反码和原码,其他位数的二进制补码与此类似。
通过以上两个问题Q1和Q2的回答和引申,我们已经知道int类型在内存中存储的方式,即int类型在内存中,以补码的形式存储。而且我们还知道了为何int类型的取值范围中负数的最小值的绝对值比正数的最大值大1的原因,即-2^32的补码是10000000 00000000 00000000,原本-0的位置被-2^32取代了。
怎么样,明白了吗?
作者:dotcpp-菜鸟
C语言研究中心(www.dotcpp.com)