Linux内核的栈回溯与妙用

发布时间：2018-11-14 03:19:13 所属栏目：业界来源：今日头条

导读：1 前言说起linux内核的栈回溯功能，我想这对每个Linux内核或驱动开发人员来说，太常见了。如下演示的是linux内核崩溃的一个栈回溯打印，有了这个崩溃打印我们能很快定位到在内核哪个函数崩溃，大概在函数什么位置，大大简化了问题排查过程。网上或多或少

副标题[/!--empirenews.page--]

1 前言

说起linux内核的栈回溯功能，我想这对每个Linux内核或驱动开发人员来说，太常见了。如下演示的是linux内核崩溃的一个栈回溯打印，有了这个崩溃打印我们能很快定位到在内核哪个函数崩溃，大概在函数什么位置，大大简化了问题排查过程。

网上或多或少都能找到栈回溯的一些文章，但是讲的都并不完整，没有将内核栈回溯的功能用于实际的内核、应用程序调试，这是本篇文章的核心：尽可能引导读者将栈回溯的功能用于实际项目调试，栈回溯的功能很强大。

Linux内核的栈回溯与妙用

本文详细讲解了基于mips、arm架构linux内核栈回溯原理，通过不少例子，尽可能全面给读者展示各种栈回溯的原理，期望读者理解透彻栈回溯。在这个基础上，讲解笔者近几年项目开发过程中使用linux内核栈回溯功能的几处重点应用。

1 当内核某处陷入死循环，有时运行sysrq的内核线程栈回溯功能可以排查，但并不适用所用情况，笔者实际项目遇到过。最后是在系统定时钟中断函数，对死循环线程栈回溯20多级终于找到死循环的函数。

2 当应用程序段错误，内核捕捉到崩溃，对崩溃的应用空间进程/线程栈回溯，像内核栈回溯一样，打印应用段错误进程/线程的层层函数调用关系。虽然运用core文件分析或者gdb也很简便排查应用崩溃问题，但是对于不容易复现、测试部偶先的、客户现场偶先的，这二者就很难发挥作用。

还有就是如果崩溃发生在C库中，CPU的pc和lr(arm架构)寄存器指向的函数指令在C库的用户空间，很难找到应用的代码哪里调用了C库的函数。arm架构网上能找到应用层栈回溯的例子，但是编译较麻烦，代码并不容易理解，况且mips能在应用层实现吗?还是在内核实现应用程序栈回溯比较方便。

3 应用程序发生double free，运用内核的栈回溯功能，找到应用代码哪里发生了double free。double free是C库层发现并截获该事件，然后向当前进程/线程发送SIGABRT进程终止信号，后续就是内核强制清理该进程/线程。double free比应用程序段错误更麻烦，后者内核还会打印出错进程/线程名字、pid、pc和lr寄存器值，double free这些打印全没有。

笔者做过的一个项目，发布前，遇到一例double free崩溃问题，极难复现，当初要是把double free内核对出问题进程/线程栈回溯的功能做进内核，就能找到出问题的应用函数了。

4 当应用程序出现锁死问题，对应用所有线程栈回溯，分析每个线程的函数执行流程，对查找锁死问题有帮助。

以上几例应用，在笔者所做的项目中，内核已经合入相关代码，功能得到验证。

2 栈回溯的原理解释

2.1 基于fp栈帧寄存器形式的栈回溯

笔者最初学习栈回溯，首先看到的资料就是arm架构基于fp寄存器的栈回溯，这种资料网上比较多，这里按照自己理解再描述一遍。

这种形式的栈回溯相对来说并不复杂，也容易理解，遵循APCS(ARM Procedure Call Standard)规范, APCS规范了arm寄存器的使用、函数调用过程出栈和入栈的约定。如下图所示，是一个传统的arm架构下函数栈数据分布，函数栈由fp和sp寄存器分别指向栈底和栈顶(这里举的例子函数无形参，无局部变量，方便理解)。

通过fp寄存器就可以找到存储在栈中lr寄存器数据，这个数据就是函数返回地址。同时也可以找到保存在函数栈中的上一级函数fp寄存器数据，这个数据指向了上一级函数的栈底，如此就可以按照同样的方法找出上一级函数栈中存储的lr和fp数据，就知道哪个函数调用了上一级函数以及这个函数的栈底地址。

这样就构成了一个栈回溯过程，整个流程以fp为核心，依次找出每个函数栈中存储的lr和fp数据，计算出函数返回地址和上一级函数栈底地址，从而找出每一级函数调用关系。

为了使读者理解更充分，举一个简单的例子。以C函数调用了B函数为例，两个函数无形参，无局部变量，此时的入栈情况最简单。两个函数以伪代码的形式列出，演示入栈过程，寄存器的入栈及赋值，与实际的汇编代码有偏差。

假设C函数的栈底地址是0x7fff001c，C函数的前5条入栈指令执行后，pc等寄存器的值保存到C函数栈中，此时fp寄存器的值是C函数栈底地址0x7fff001c。

然后C函数跳转到B函数，B函数前5条指令执行后，pc、lr、fp寄存器的值依次保存到B函数栈中：B函数栈的第二片内存保存的就是lr值，即B函数的返回地址;第四片内存保存的是fp值，就是C函数栈底地址0x7fff001c(在开始执行B函数指令前，fp寄存器的值是C函数的栈底地址，B函数的第4条指令又是令fp寄存器入栈);B函数第五条指令执行后，fp寄存器已经更新，其数据是B函数栈的栈底地址0x7fff000c。

当B函数发生崩溃，根据fp寄存器找到B函数栈底地址，从B函数栈第二片内存取出的数据就是lr，即B函数返回地址，第4片内存取出的数据就是fp，即C函数栈底地址。有了C函数栈底地址，就能按照上述方法找出C函数栈中保存的的lr和fp，实现栈回溯…..

2.2 unwind 形式的栈回溯

在arm架构下，不少32位系统用的是unwind形式的栈回溯，这种栈回溯要复杂很多。首先需要程序有一个特殊的段.ARM.unwind_idx 或者.ARM.unwind_tab，linux内核本身由多段组成，比如内核驱动初始化函数的init段。在System.map文件可以搜索到__start_unwind_idx，这就是ARM.unwind_idx段的起始地址。

这个unwind段中存储着跟函数入栈相关的关键数据。当函数执行入栈指令后，在unwind段会保存跟入栈指令一一对应的编码数据，根据这些编码数据，就能计算出当前函数栈大小和cpu的哪些寄存器入栈了，在栈中什么位置。

当栈回溯时，首先根据当前函数中的指令地址，就可以计算出函数unwind段的地址，然后从unwind段取出跟入栈有关的编码数据，根据这些编码数据就能计算出当前函数栈的大小以及入栈时lr寄存器数据在栈中的存储地址。这样就可以找到lr寄存器数据，就是当前函数返回地址，也就是上一级函数的指令地址。

此时sp一般指向的函数栈顶，sp+函数栈大小就是上一级函数的栈顶。这样就完成了一次栈回溯，并且知道了上一级函数的指令地址和栈顶地址，按照同样的方法就能对上一级函数栈回溯，类推就能实现整个栈回溯流程。为了方便理解，下方举一个实际调试的示例。该示例中首先列出栈回溯过程每个函数unwind段的编码数据和栈数据。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/11

尾页

壹号本新款 ONE XPLAY	特斯拉前 CTO 电动汽车
华硕公布新款天选3 搭	主流显卡最新场批价曝