前言

当双击打开一个可执行文件的时候,计算机究竟干了什么?磁盘上的可执行文件是怎么装载到内存当中去的?对于众多程序猿来说,这也仍然是一个不太容易回答的问题。

这次让我们从虚拟内存的角度来看看可执行文件的装载过程,仔细分析从可执行文件开始装载到第一条指令执行时发生了什么。

本文不再详细解释进程的概念、ELF文件结构、虚拟内存的定义、分页的概念、请求分页的工作原理。

装载

装载大体上可以分为以下几步:

  1. 创建进程
  2. 创建虚拟地址空间
  3. 读取可执行文件头,建立虚拟地址空间与可执行文件的映射关系
  4. 设置CPU指令寄存器为可执行文件入口地址
  5. 执行,触发缺页中断

下面来逐步分析

创建进程

创建进程不必多说了,此时会创建如进程标识符、进程优先级之类的信息。注意此时还不涉及到可执行文件。

创建虚拟地址空间

这一步其实应该算在创建进程里面,实际就是创建页表(多级页表),用来与物理内存建立连接,此时这个页表是空的。此时仍然不涉及到可执行文件。

读取可执行文件头

这个就是关键的一步了。进程开始读取可执行文件头,即ELF文件的头部,此时进程也仅仅读取ELF文件头部,不涉及到其他段。ELF文件头中含有可执行文件各段的起始地址和长度等信息,以及可执行文件入口地址,注意这里"地址"即虚拟内存地址。

这里需要强调的是:整个装载过程也仅仅是读取了ELF头部,仅此而已。因为ELF头部记录了整个可执行文件的节奏,所以根据ELF头部即可建立整个可执行文件的框架。因此,这一步实在建立与磁盘的连接。举个简单的例子,当发生缺页中断时,操作系统该去哪把缺的页加载到物理内存?这就是这一步的关键之处了。将虚拟内存地址与磁盘地址建立联系,当缺页时即可寻找到对应的磁盘地址,从而加载到物理内存。

还需要强调的一点是,此时在进程中,实际相当于是仅仅保存了一个函数映射关系。如下图有更直观的理解。

virtual

设置CPU指令寄存器

如上两步建立了虚拟地址空间和物理内存、磁盘的映射关系,现在就要准备运行此程序了。运行的第一条指令地址在哪?在ELF头部中。将CPU指令寄存器的值设置为第一条指令地址即可。

页中断

想想CPU在从入口地址取指令时会发生什么。假设入口地址指向.text段首,如图所示为0x8049000;CPU以此虚拟地址查找页表发现该页尚未装载,触发缺页中断。此时操作系统接管,从之前建立的虚拟地址空间与磁盘的映射关系中找到此页在磁盘中的地址;再从此地址读取页,加载到物理内存,缺页中断完毕。CPU重新从入口地址取指令,此时由页表得到物理地址,从内存中得到对应的指令,交给CPU。

随着进程的执行,缺页中断不断出现,磁盘中的可执行文件也逐渐加载到内存中。

总结

如上便是简单的可执行文件的装载过程,最需要强调的一点是,可执行文件的数据是 按需 加载到物理内存的,缺页中断驱动着进程的执行。

参考

  • 袁春风. 计算机组成与系统结构[M]. 清华大学出版社, 2013.
  • Bryant R, David Richard O H. 深入理解计算机系统[M]. 机械工业出版社, 2016.