【转】ARM-ELF文件格式与GNU ARM Linker机制

【转】ARM-ELF文件格式与GNU ARM Linker机制

     这里所说的ARM系统基本文件格式，都是在基于ARM的嵌入式系统开发中常会碰到的文件格式。
    ARM系统基本文件格式有三种：
1) BIN，平板式二进制格式，一般用于直接烧写到Flash中，也可以用于加载到monitor程序中。
2) ELF，EXECUTABLE AND LINKABLE FORMAT，一种通用的OBJECT文件格式，一般由GNU COMPILER COLLECTION (GCC)产生。
3) AXF，BIN格式的扩展版,主体部分同BIN，在文件头和尾加入了调试用的信息，用于AXD。
    本文主要讨论BIN与ELF。
    首先说明，ELF格式是一种OBJECT文件格式。一般OBJECT文件都可以分成三类：可重定位OBJECT文件，可执行OBJECT文件，共享OBJECT文件。ELF格式文件也可以分成这三种。
    首先说说可重定位OBJECT文件。这种OBJECT文件一般由GCC中的ASSEMBLER(as)产生(请不要认为GCC只是编译器)，里面除了二进制的机器代码，还有一些可用于进行重定位的信息。它主要是作为LINKER(ld)的输入，LINKER将跟据这些信息，将需要重定位的符号重定位，进而产生可执行的OBJECT文件。ELF格式的可重定位OBJECT文件由header与section组成。
    Header 包括ELF header 与 section header. ELF header 位于文件的头部，用于存储目标机器的架构，大小端配置，ELF header大小，object文件类型，section header 在文件中的偏移，section header    的大小，section header 中的项目数等信息。Section header 则定义了文件中每个section 的类型，位置，大小等信息。Linker就是通过查找ELF header，找到section header 的入口，再在section header 中找到相应的section 入口，进而定位到目标section 的。

    Section 包括
.text    ：经过编译的机器代码。
.rodata  ：只读的数据，例如printf(“hello!”)中的字符串hello。
.data    ：已初始化的全局变量，局部变量将在运行时被存放在堆栈中，不会在.data或 .bss段中出现。
.bss     ：未初始化的全局变量，在这里只是一个占位符，在object文件中并没有实际的存储空间。
.symtab  ：符号表，用于存放程序中被定义的或被引用到的全局变量和函数的信息。
.rel.text  ：一个保存着一系列在.text中的位置的列表。这些位置将在linker把这个文件与其它object文件合并时被修改，一般来说，这些位置都是保存着一些引用到全局变量或者外部函数的指令。引用局部变量或者本地函数的指令是不需要被修改的，因为局部变量和本地函数的地址一般都是使用PC相对偏移地址的。需要注意的是，这个section 和下面的.rel.data在运行时并不需要，生成可执行的ELF object文件时会去掉这个section。
.rel.data ：保存全局变量的重定位信息。一般来说，如果一个全局变量它的初始化值是另一个全局变量的地址，或者是外部函数的地址，那么它就需要被重定位。
.debug  ：保存debug信息。
.strtab  ：一个字符串表，保存着.symtab和.debug ,和各个section的名字。.symtab，.debug 和section table里面，凡是保存name的域，其实都是保存了一个偏移值，通过这个偏移值在这个字符串表里面可以找到相应得字符串。
    下面仔细讨论一下.symtab：
    每一个可重定位的object文件，都会有一个.symtab。这个符号表保存了在这个object文件中所有被定义的和被引用的符号。当源程序是C 语言程序时，.symtab 中的符号直接来源于C编译器(cc1)。这里所说的符号主要有三种：
1) 在这个object文件中被定义的可以被其他object文件全局符号。在C语言源程序中，主要就是那些非静态（没有static 修饰的）的全局变量和非静态的函数。在ARM汇编语言中，就是那些被EXPORT 指令导出的变量。
2) 在这个object文件中引用到，但是在其他文件中定义的全局变量。在ARM汇编语言中就是通过IMPORT命令引入的变量
3) 本地变量。本地变量只在本object文件内可见。这里的本地变量指的是连接器本地变量，应该和一般的程序本地变量作区别。这里所指的本地变量，包括用static 修饰的全局变量，object文件中section名称，源代码文件名称。一般意义上的本地变量，是在运行时由系统的运行时环境管理的，linker并不关心。
    每个符合上面条件的符号在.symtab文件中都会有一个数据项。这个数据项的数据结构是：

Typedef struct{
    int name;//符号名称，其实就是.strtab的偏移值
    int value;//在section中的位置，以相对section地址的偏移表示
    int size;//大小
    char type;//类型，一般是数据或函数
    char binding;//是本地变量还是全局变量
    char reserved;//保留的位
    char section;//符号所属的section。可选有：.text(用数字1代表)，.data(用数3代表)，ABS（不应被重定位的符号），

//UND（在本object文件中未定义的符号，可能在别的文件中定义），COM（一般的未初//始化的变量符号）。
}ELF_sym

   现在假设组成应用的各个模块都已经被汇编，构建出了可重定位的object文件。这些object的结构都是一样的，有各自的.text, .data section, 有各自的.symtab. GCC下一步要做的就是使用linker (ld),把这些object文件，加上必要的库连接成具有绝对运行时地址的可执行文件，就是可执行的ELF格式的文件。
    Linker 的连接动作可以分为两部分：
1) 符号解析。确定引用符号的指向。
2) 符号重定位。合并section,    分配运行时环境地址，引用符号重定位。
    符号解析：
    在一个object文件中，有指令定义了符号，也有指令引用了符号。可能存在这样一种情况，一个被引用到的符号，有多重的定义。符号解析的作用就是确定，在这个object文件中，一个符号引用真正引用的是哪个符号。
    在编译的时候，除了在本文件中定义的全局变量会由编译器生成一个符号表项之外，当发现一个被引用到的符号在本文件中并没有被定义，编译器也会自动产生一个符号表项，把确定这些引用的工作留给linker。汇编器在汇编时将读取这些符号表项，生成.symtab。在读取的过程中，如果发现有在无法确定的符号引用项，汇编器会为这些符号额外生成一个数据项，称作重定位数据项，存放于rel.text或rel.data section中，交由linker确定。下面是重定位数据项（relocation entry）的数据结构：

Typedef struct{
    int offset;//指明需要被重定位的引用在object中的偏移，实际上就是需要被重定位的引用
                   //在object中的实际位置
    int symbol;//这个被重定位的引用真实指向的符号
    int type;//重定位类型：R_ARM_PC24:使用24bit的PC相对地址重定位引用
                   //R_ARM_ABS32:使用32bit绝对地址重定位引用
}Elf32_Rel

   Linker 需要解析的，就是那些被生成了重定位数据项的引用。Linker将根据C语言定义的规则，对于每一个重定位数据项，在输入的各个object文件中查找适合的符号，把这个符号填入symbol项中。但是由于还不知道这个符号的真实地址，所以现在就算知道了引用的真实指向，但我们还是不能确定这个引用指向的地址。
    符号重定位：
    符号重定位用来解决上面的问题。Linker首先进行section 的合并。Linker合并object文件的过程很简单，一般就是相同属性的section合并，例如不同object文件的.text section 将被合并成一个.text。同样，.symtab section也被合并成一个.symtab。这里面涉及到两个问题：
1) 各个object文件合并的顺序。这个问题涉及到最终指令和符号的运行地址。最为重要的是，究竟是哪个section排在最前头？在ARM RAW 系统得开发过程中，这个最为重要。ARM系统CPU上电后，系统会自动的从0x00000000地址取指令并执行，这个地址上映射着存储器。这个动作是不可编程的。所以排在最前面的section一定要包含有程序的入口点，否则系统无法正常运行。
2) 输入段与输出端之间的对应关系。理论上，任何section,都可以被随意的映射到一个输出段中。一个.data section是可以与一个.text section 组成输出一个.text的。当然这样的动作毫无意义。我们必须告诉linker使用那些section作为输入，产生一个输出section.
    以上这两个问题，都是通过一个称为连接脚本的文件控制的。Linker通过读取连接脚本，来决定section 从输入到输出的映射，设置程序的入口点，设置哪个section应该在整个可执行文件的头部等问题。
    连接脚本还有另外一个作用，那就是指定每个section的地址。在section 合并完成后，linker将跟据.symtab，对符号进行统一的编址，分配一个绝对的运行时地址。这个地址是以section地址作为基地址的。假设.text section的地址是0x00000000，那么.text里面的符号将以0x00000000这个地址作为基准地址。指定section地址的工作也是由连接脚本完成。在嵌入式开发中常见的在编译工程时需指定的text_base, data_base等参数，最后会被加入到连接脚本中，从而完成section的地址分配。
    以上两步完成后，linker 执行引用符号重定位操作。Linker遍历.rel section (包括.rel text 和 .rel data)，对于其中的每个数据项，根据symbol域到.symtab 中查出相应的引用的真实地址(经过上面的地址分配，现在.symtab里面的符号都具有绝对的运行地址)，再根据offset域提供的偏移，将这个地址填入相应的位置上。
    至此，符号重定位工作全部完成。Linker删除用于保存重定位信息的rel.text和rel.data section，加入一个segment header和一个.init section。生成可执行的ELF格式的object文件。
    Segment header保存了用于操作系统内存映射的信息。.init section 包含了一个_init 的函数。程序加载时，操作系统的程序加载器通过读取segment header，将程序加载到用户内存空间，并根据segment header里面映射信息，分别将.text 段和.data段映射到适当的地址上。然后再调用.init中的_init函数，完成初始化工作。
    由于ELF文件具有通用性强的优点，现在流行的开发模式是，先通过编译工具生成ELF文件格式的可执行文件，在使用外部工具，抽离出ELF文件中的相应部分，生成BIN文件。例如著名的GNU bootloader U-Boot，就采用了这种做法，编译器工具集是GCC，BIN生成工具是elf2bin。ARM公司著名的开发环境ADS，虽然使用的是自家的armcc,和armcpp编译器，但他们的工作方式却是与GNU GCC如出一辙。

转载请注明：在路上 » 【转】ARM-ELF文件格式与GNU ARM Linker机制

Post Views: 1,239

与本文相关的文章