第七章:链接

链接:将各种代码和数据片段收集并组合成为一个单一文件的过程,这个文件可被加载(复制)到内存并执行


链接的好处

  • 帮助构建大型程序
  • 避免危险的编程错误
  • 理解语言的作用域规则的实现原理
  • 理解其他的系统概念
  • 利用共享库

编译器驱动程序

1
2
3
4
5
6
7
8
9
10
//main.c
int sum(int *a,int n);

int array[2] = {1,2};

int main()
{
int val = sum(array,2);
return val;
}
1
2
3
4
5
6
7
8
9
10
11
//sum.c
int sum(int *a,int n)
{
int i,s=0;

for(i =0;i<n;i++)
{
s+=a[i];
}
return s;
}

通过GCC编译器驱动程序,可以调用语言预处理器、编译器、汇编器和链接器。
在shell中输入下列命令,驱动程序会将main.c和sum.c翻译成可执行目标文件prog

1
[linux]$ gcc -Og -o prog main.c sum.c

下图概括了具体步骤:

  • 运行C预处理器(cpp),将main.c翻译成中间文件main.i
  • 运行C编译器(cc1),将main.i翻译成一个ASCII汇编语言文件main.s
  • 运行汇编器(as),将main.s翻译成一个可重定向目标文件main.o
  • 以相同的步骤生成sum.o
  • 运行链接器程序ld,将main.o和sum.o以及必要的系统目标文件组合,生成一个可执行目标文件prog
  • 输入“linux> ./prog”,系统将调用加载器,将prog中的代码和数据复制到内存,并将控制移至程序开头

静态链接

通过静态链接器以一组可重定位目标文件和命令行参数作为输入,生成完全链接、可加载和运行的可执行目标文件作为输出。
要完成以上任务,链接器需完成以下步骤:

  • 符号解析:将每个符号引用和符号定义关联起来
  • 重定位:把每个符号定义和一个内存位置关联起来,然后修改所有符号引用,使它们指向这个内存位置

目标文件

纯粹就是字节块的集合,这些块中,有些包含程序代码,有些包含数据,其他则包含引导链接器和加载器的数据结构。链接器将这些块重新组合,确定它们的运行位置。

  • 可重定位目标文件:包含二进制代码和数据
  • 可执行目标文件:可直接被复制进内存并运行
  • 共享目标文件:特殊的可重定位目标文件,可以在加载和运行时被动态地加载进内存并链接

下图是一个典型的可执行可链接格式(ELF)可重定位目标文件格式

  • ELF头:以一个16字节的序列开始,描述了生成该文件的系统的字的大小和字节顺序。其次还包括ELF头的大小、目标文件的类型、机器类型(x86-64)、节头部表的文件偏移、节头部表中的条目大小和数量
  • 节头部表:描述不同节的位置和大小
  • .text:以编译程序的机器代码
  • .rodata:只读数据
  • .data:已初始化的全局和静态C变量
  • .bss:未初始化的全局和静态变量,以及初始化为0的全局或静态变量。这个节不占据实际空间,仅仅是占位符,所以在运行时,这些变量被初始化为0
  • .symtab:符号表,包含在定义和引用的函数和全局变量的信息。但是不包含局部变量的条目
  • .rel.text:通常省略
  • .rel.data:被引用的或定义的所有全局变量的重定位信息
  • .debug:调试符号表,只有以-g调用编译器驱动程序时才会得到这种表,其条目是局部变量和类型定义,程序中定义和引用的全局变量,以及原始的c源文件
  • .line:原始c源程序和.text节中机器指令之间的映射,同样要以-g调用时才能得到
  • .strlab:字符串表,包括.symlab和.debug节中的符号表,以及节头部中的节名字

可重定位目标文件