结构体和联合体的简单介绍

《c和指针》阅读笔记

(一)结构(struct)

聚合数据类型就是能够同时存储超过一个的单个数据。包括数据和结构,数组是相同类型的集合,结构的各个成员可能有不同的类型。

数组元素可以通过下标访问,这是因为数组的元素长度相同;而结构成员都有自己的名字,大小可能不同,只能通过名字访问的。

结构体声明

注意:定义两个结构体的声明,即使他们的成员列表完全相同,也会被当做两种截然不同的类型,因此不能进行赋值或者指针的赋值。

解决方案:用标签来创建变量,可以用typedef创建一种新的类型。

只有当两个变量是同一结构体类型,才可以进行赋值或者指向。

如果你想在多个源文件中使用同一种类型的结构体,你应该吧标签声明或者typedef形式的声明放在一个头文件中。当源文件需要这个声明是可以使用#include指令将头文件包含进来。

成员访问

直接访问,直接访问结构的成员:.

结合性:从左往右

间接访问,访问变量所指向的结构的成员:->

自引用

一个结构体中不可以包含它自身,这样重复包含自己永无止境。

但是可以包含一个指向该结构类型本身的指针。如:

struct SELF_REF {
int a;
struct SELF_REF *b;
int c;
}

它事实上所指向的是同类型的不同结构。更加高级的数据结构,如链表和树都是用这个技巧实现的。

注意下面这个是错误的:

typedef struct {
int a;
SELF_REF *b;
int c;
}SELF_REF;

类型名知道声明的末尾才定义,所以在结构体声明的内部它尚未定义。

应该写成

typedef struct SELF_REF_TAG{
int a;
struct SELF_REF_TAG *b;
int c;
}SELF_REF;

不完整声明

偶尔要声明一些互相之间存在依赖的结构,也就是说其中一个结构包含了另一个结构体的一个或者多个成员,那么哪个结构应该首先声明呢?

struct B;
struct A {
struct B *p;
};
struct B {
struct A *p;
}

解决方案是不完整声明,它先声明一个作为结构标签的标识符。然后可以把这个标签用在不需要知道这个结构长度的声明中,如声明指向这个结构体的指针(指针长度都一样)。接下来的声明吧这个标签和成员列表联系在一起。

初始化

用花括号和逗号隔开。如果初始化列表的值不够,剩余的结构成员将使用缺省值进行初始化。

结构的存储分配

struct ALIGH{
char a;
int b;
char c;
}

如果某个机器的整型值长度为4,并且它的其实存储位置必须要能够被4整除,那么这个结构体的长度为12个字节。因为系统静止编译器在一个结构的其实位置跳过几个字节来满足边界对齐要求,因此所有结构的其实存储位置必须死结构中边界要求最严格的数据类型所要求的位置。

解决方案:我们可以对结构的成员列表重新排泄,让那些对边界要求最严格的成员首先出现,对边界要求最弱的成员最后出现,可以最大限度的减少因为边界对齐带来的空间损失。

struct ALIGN{
int b;
char a;
char c;
}

如果需要确定结构体中某个成员的实际位置,应该考虑边界对齐因素的影响,可以使用offsetof宏(定义于stddef.h)

offsetof ( type, member); 表示一个指定成员开始存储的位置距离结构体开始存储的位置偏移几个字节。

作为函数参数的结构

如果用按值传递的调用方式效率很低,会把结构体中的所有数据复制到堆栈再丢弃。

我们可以用按地址传递的调用方式,只是传递结构体的地址,可以大大提高效率,也节省了内存。

在许多机器中,可以把参数声明为寄存器变量,从而进一步提高指针传递方案的效率。在有些机器上,这种声明在函数的起始部分还需要一条额外的指令,用于吧堆栈中的参数(参数先传递给堆栈)赋值到寄存器,供函数使用。但是如果函数对这个指针的间接访问次数超过两三次,那么使用这种方法所节省的时间将远远高于一条额外指令所花费的时间。

但是这个缺陷是函数会对调用程序的结构变量进行修改。

如果我们不希望如此,可以在函数中使用const关键字来防止这类修改。现在函数原型变成了:

void print_rec(register SELF_REF const *trans );

(二)位段

声明

位段的声明和普通的结构成员声明相同,但是有两个例外,位段成员必须声明为int、unsigned int类型。其次,在成员名的后面是一个冒号和整数,这个整数指定该位段所占用的位的数目。

注意

可移植性程序应该避免使用位段,因为不同的系统,位段可能有不同的结构。

  1. int位段被当做有符号数还是无符号书
  2. 位段中位的最大数目。许多编译器把位段成员的长度限制在一个整型值的长度以内,所以32位机器上运行的16位可能不能运行。
  3. 位段中的成员在内存中是从左往右分配的还是从右往左分配的
  4. 当一个声明指定了两个位段,第二个位段比较大,无法容纳于第一个位段剩余的位时,编译器可能吧第二个位段放在内存的下一个字,也可能直接放在第一个位段后面,从而在两个内存位置的边界上形成重叠。

是用于控制寄存器的较好的方法。任何可以用位段实现的功能都可以用移位和屏蔽(用与或者非)实现,在源代码中用位段表示这个处理过程更加简单一点,但在目标代码中,这两种方法并不存在任何区别。

(三)联合(union)

使用方法

当你想在不同的时刻把不同的东西存储于同一个位置时,就可以用联合。

一般和自定义的类型连用,如:

struct VARIABLE {
enum {INT, FLOAT, STRING} type;
union {
int i;
float f;
char *s;
}value;
}

在高通的代码中就很常见,通常是一个模块的接口,不同的事件请求 携带不同的数据。

疑问:为何不能不同的事件请求都用相同的data指针,这个data指针根据事件请求指向不同的地址。高通的代码中两种写法都有,是不是如果用union传递可以保护原来的变量不被修改?

在成员长度不同的联合里,分配给联合的内存数量取决于它的最长成员的长度,这样联合的长度总是足以容纳它最大的长远,如果这些成员的长度相差悬殊,节省的空间相当可观。

在这种情况下,更好的方法是:在联合中存储指向不同成员的指针,而不是直接存储成员本身。所有的指针长度都是相同的,这样就解决了内存浪费的问题。

疑问:这样还有必要去声明一个union么?直接定义一个data指针,不同的时候指向不同的地址不就行了么?

初始化

可以初始化,但是这个初始值必须是联合第一个成员的类型,而且他必须位于一对花括号里面。

比如定义一个union,第一个成员是int,第二个是float;我们不能把这个变量初始化为一个浮点数或者字符值。如果给出的初始值是其他类型,它可能会转换为int类型,进行使用。