C++中的数据对齐示例详解

前言

对于C/C++程序员来说，掌握数据对齐是很有必要的，因为只有了解了这个概念，才能知道编译器在什么时候会偷偷的塞入一些字节（padding）到我们的结构体（struct/class），也唯有这样我们才能更好的理解、优化结构体和内存。

几个栗子

看看几个简单的Struct，能猜出他们的SIZE吗？（运行于64Bit win10 vs2017）

struct A
{
	char c1;
};

struct B
{
	int i1;
};

struct C
{
	char c1;
	int i1;
};

struct D
{
	char c1;
	int i1;
	char c2;
};

struct E
{
	char c1;
	char c2;
	int i1;
};

int main()
{
	std::cout << "A"s size is " << sizeof(A) << std::endl;
	std::cout << "B"s size is " << sizeof(B) << std::endl;
	std::cout << "C"s size is " << sizeof(C) << std::endl;
	std::cout << "D"s size is " << sizeof(D) << std::endl;
	std::cout << "E"s size is " << sizeof(E) << std::endl;	
}

先揭晓答案

C++中的数据对齐示例详解

如果对任何一个结构体的大小有疑问，那么这篇文章非常适合你，请接着往下看，我们会解释数据对齐。

数据对齐

处理器读取数据的行为

在C/C++中，每种数据类型都有对齐的要求（这个更多是处理器的要求而非语言层面），大家都知道，处理器工作的时候需要数据总线（data bus）、控制总线（control bus）和地址总线（address bus）一起配合工作。而在数据总线取数据的时候，处理器为了高效的工作，一次会取4byte或者8byte数据（依系统32bit或者64bit而不同），这就是所谓数据字长（word size）。同时在读取内存的时候，也会从4byte或者8byte边界开始读取，这是处理器行为，我们只能尊重不能改变。考虑下面的例子，

struct F
{
  int i1
  char c1;
  int i2;
  char c2;
};
#include <iostream>

int main()
{
  F f;
  printf("0x%p
", &f);
}

它的起始地址输出是：

0x000000FE8BCFFB88

所以在内存中可能的排列就是：

C++中的数据对齐示例详解

读取数据的时候，每次读入8btye，8个字节为一个读取单元，就像蒸笼的一格，这样做的好处是每次可以尽可能多的读入数据，减少读取次数。设想，如果一次只读入一个字节数据，那么一个Int就需要4次读取，明显效率就很低。

编译器的做法

如果没有对齐

了解了处理器如何读取数据的，我们就不难理解编译器为什么会做出调整。试想，如果编译器不在后台做出填充（padding），那么我们就会遇到这种情况

C++中的数据对齐示例详解

像这样的话，访问i1, c1 都不会有问题，但是访问i2就会发现，数据散落在不同的蒸笼，原本只需要一次读取就行的数据，还需要一次额外的数据读取才行，这就造成了读取数据的低效，在某些严格的CPU，比如ARM上面，这种非对齐的数据读操作甚至会被拒绝。

编译器对齐

所以，为了让数据读取效率最大化，编译器会选择牺牲一部分空间来换取效率，他们不会允许i2横跨两个读取单元。在实际中，上面的结构体会是这样的

C++中的数据对齐示例详解

可以看出，

为了解决i2的对齐问题，c1之后填充了3个空字节
同时为了保持整个结构体的对齐（结构体对齐字节数等于其最大的数据成员的对齐字节数，这里是4），在结构体的尾部还会有3个空字节
整个结构体的大小就是16字节，有6个字节是空字节。

所以，在编译器的作用下，最开始几个Struct实际上扩展为，

struct A
{
	char c1; //no padding
};

struct B
{
	int i1; //no padding
};

struct C
{
	char c1;
	char pad[3]; //padding
	int i1;
};

struct D
{
	char c1;
	char pad1[3]; //padding
	int i1;
	char c2;
	char pad2[3]; //padding
};

struct E
{
	char c1;
	char c2;
	char pad[2]; //padding
	int i1;
};

对齐的目的是要让数据访问更高效，一般来说，数据类型的对齐要求和它的长度是一致的，比如，