高手谈Android NDK C++ RTTI 分析-白红宇

高手谈Android NDK C++ RTTI 分析

阅读量：7036 次

发布时间：2019-06-28

本文共 4605 字，大约阅读时间需要 15 分钟。

本文意在说明Android NDK 在实现C++ RTTI时的相关数据结构，并从汇编角度分析其内存布局，以帮助理解RTTI的实现原理，同时，分析在逆向过程中如何利用RTTI恢复C++类名信息。

用ndk-build编译C++代码时，默认的C++运行时库（libstdc++)是不支持RTTI的，需要在Application.mk与Android.mk中进行配置。其它可以选择的C++运行时库有GAbi++、STLport、GNU STL、LLVM libc++, 各种库又分静态链接库与动态链接库。其中中STLport的RTTI是借用了GAbi++中的实现，另外GNU STL、LLVM libc++的实现也与GAbi++非常相似（相关数据结构的命名、结构都相似, 可能是因为都是基于Itanium C++ ABI（链接[3]）？）。

所以本文将选择STLPort为C++运行时库，在Application.mk中配置:

APP_STL := stlport_static

在Android.mk中配置：

LOCAL_CPP_FEATURES := rtti

另外，本文使用 Android NDK 10c编译，编译abi为armeabi，编译32位代码时其默认使用GCC 4.8。若使用其它版本NDK或者其它编译器，可能与本文分析结果有差异。

一、C++ RTTI 简介

RTTI是Runtime Type Identification的缩写，即运行时类型识别。程序能够借此使用基类的指针或引用，来检查这些指针或引用所指的对象的实际派生类型。C++通过typeid与dynamic_cast来提供RTTI。typeid返回一个typeinfo对象的引用，它记录了与类型相关的信息，后文将详细分析这个结构；dynamic_cast用于安全而有效地进行向下转型(down_cast)，即安全地将一个基类指针转换为一个派生类指针。

它们的基本使用方法如下：

classes.h文件：

class Base

{

public:

Base();

virtual ~Base();

virtual void Func();

private:

int mMember;

};

class Deriver1 : public Base

{

public:

Deriver1();

virtual ~Deriver1();

virtual void Func();

private:

int mDeriver1Member;

};

class Deriver2 : public Base

{

public:

Deriver2();

virtual ~Deriver2();

virtual void Func();

private:

int mDeriver2Member;

};

main.cpp文件：

int main()

{

Base base;

Deriver1 deriver1;

Deriver2 deriver2;

cout<<typeid(int).name()<<endl;

cout<<typeid(Base).name()<<endl;

cout<<typeid(base).name()<<endl;

Base *pBase = &deriver1;

cout<<typeid(pBase).name()<<endl;

cout<<typeid(*pBase).name()<<endl;

cout << pBase << endl;

Driver1 *pDeriver1 = dynamic_cast<Deriver1*>(pBase);

cout << pDeriver1 << endl;

Driver2 *pDeriver2 = dynamic_cast<Deriver2*>(pBase); //正确，返回NULL

cout << pDeriver2 << endl;

pDeriver2 = (Deriver2*)pBase;//错误

cout << pDeriver2 << endl;

pDeriver2 = static_cast<Deriver2*>(pBase); //错误

cout << pDeriver2 << endl;

return 0;

}

编译成可执行文件，push到android 手机上运行，输出：

i <------- typeid(int).name()，变量类型

4Base <------- typeid(Base).name(), 类名

4Base <------- typeid(base).name()，变量

P4Base <------- typeid(pBase).name(), Base的指针类型

8Deriver1 <------- typeid(*pBase).name(), pBase实际指向一个Deriver1

0xbec87a20

0xbec87a20 <----- 正确的转换，指向deriver1的基类指针可以转换为Deriver1类型指针

0x00000000 <----- 正确的转换，因为指向deriver1的基类指针并不能转换为Deriver2类型指针

0xbec87a20 <----- 错误，若继续使用，可能会导致内存访问出错，即将Dervier1当Deriver2用

0xbec87a20 <----- 错误，若继续使用，可能会导致内存访问出错

P.S. 上面看到显示的类名与我们定义的不完全一样，是因为为了保证每个类名称在程序中的唯一性，编译器会通过一定的规则对原始类名进行改写，如想了解这一规则，可以以name mangling为关键词进行搜索。

二、RTTI 相关数据结构

上文说到typeid将返回一个typeinfo对象的const引用，RTTI就是依赖typeinfo类及其派生类来实现的，下面介绍下这些类。

在NDK路径下\android-ndk-r10c\sources\cxx-stl\gabi++\include\typeinfo文件中有定义这个类：

class type_info

{

public:

virtual ~type_info();

//....

private:

//....

const char *__type_name; // 这个字段记录改写过后的类名

}；

在NDK路径下\android-ndk-r10c\sources\cxx-stl\gabi++\src\cxxabi_defines.h有定义一些typeinfo的派生类，此处挑一些我们感兴趣的类列举：

class __shim_type_info : public std::type_info{....}

// 无基类的类的typeinfo类型

class __class_type_info : public __shim_type_info{.....}

//只有一个public非虚基类，且基类偏移为0的类的typeinfo

class __si_class_type_info : public __class_type_info{

public:

virtual ~__si_class_type_info();

const __class_type_info *__base_type;

//......

}

// 有基类但不满足 __si_class_type_info 约束条件的其它类的typeinfo

class __vmi_class_type_info : public __class_type_info{

public:

virtual ~__vmi_class_type_info();

unsigned int __flags;

unsigned int __base_count;

__base_class_type_info __base_info[1];

//......

}

// Used in __vmi_class_type_info

struct __base_class_type_info{

public:

const __class_type_info *__base_type;

long __offset_flags;

// .......

}

以第1小节中的程序为例，Base、Driver1的对象的内存布局如下：

e5aabaf6c8244ae1842222958db31069.png?ima

deriver2的内存布局与deriver1相似，这里没有重复画出。从上图可以看到，每一个类的虚表索引为-1的位置存放着typeinfo的指针，并根据类的不同，该指针指向不同的typeinfo派生类实例。比如Base类无基类，所以其typeinfo指针指向__class_type_info的实例；而Deriver1继承自Base, deriver1在其偏移为0的位置包含一个public非虚基类实例，所以它的typeinfo指针指向__si_class_type_info实例。使用dynamic_cast的时候，正是根据这些typeinfo指针来判断一个基类指针是否可以转换为一个派生类指针。而且由上可见，若一个待操作的类没有虚函数表， typeid也只能返回其静态类型。

下面我们通过反编译代码来验证上面的关系图。

三、逆向过程中利用RTTI恢复类名

将第1小节中生成的可执行程序用IDA Pro打开，此处选用obj\local\armeabi\目录下未经过strip的程序，以方便分析。

根据相关字符串，可以很快定位各个类的typeinfo信息：