报告概要翻译:OBFUSCATING C++ PROGRAMS VIA CONTROL FLOW FLATTENING

中文译名:通过扁平控制流的混淆的C ++程序

这篇文章写于2009年,作者是T. L ́aszl ́o 和 ́ A. Kiss,是一切Ollvm技术的初始,在不少博客和文章中均有提及。将顺序的流程变为利用switch-case这种分支判断的扁平运行,给软件逆向增加难度。目前看到最多的使用环境是加密Android的C++ NDK程序库。

OLLVM(Obfuscator-LLVM)是瑞士西北应用科技大学安全实验室于2010年6月份发起的一个项目,该项目旨在提供一套开源的针对LLVM的代码混淆工具,以增加逆向工程的难度。

腾讯应急安全响应中心-利用符号执行去除控制流平坦化

看雪社区-控制流平坦化的实现

title

摘要

利用混淆技术保护 C++ 源代码,并在文章中给出一个能把程序复杂度提高5倍,且并不影响原有功能的技术原型方案。

实现平坦化的方法:将代码分成多个基本块(就是case代码块)和一个入口块,为每个基本块编号,并让这些基本块都有共同的前驱模块和后继模块。前驱模块主要是进行基本块的分发,分发通过改变switch变量来实现。后继模块也可用于更新switch变量的值,并跳转到switch开始处。

引用一下腾讯安全的图

Ollvm运行图

正文

混淆技术的要点在于:修改程序,使其逆向结果阅读困难,却不影响正常程序运行

最简单的混淆方式是布局转换(layout transformation),去除符号表,注释与调试信息

另外一种方式是数据混淆:修改数据结构,修改变量的可见性重构数组

第三类是修改控制流转换算法,也就是本文的Ollvm

要实现这个目的,第一步需要把程序主体分解成块状,在每个块状后面设置条件转向(使用Switch语句)

效果图

而对于break,需要强行增加switch以提高拆分粒度。

while的解决方案

C++的try-catch异常处理机制也是难题,异常条件在不确定时间点的抛出也会影响程序的运行顺序。文章给的解决方案是用try-switch加goto的方案解决。把try包到最大的switch里头,没有异常就直接回到起始点,出现异常就跳出switch。

image.png

在C++语言上实现的难题

“breaking loops to basic blocks is not equal to simply splitting the head of the loop from its body”

像while, do 和 for这些循环操作,可能会发生错误,写在初始点的判断条件也要做出修改,而原本的switch分支也很难处理。就算这些语句不做额外处理,里面的break与continue也会造成麻烦。

对于switch分支,Duff给出的解决方案

Duff advice

运行流控制算法

用伪代码描述流程,查看规则如下

1
2
3
4
bold words mark the keywords of the used pseudo-language, 
the formalized parts are typeset in roman font,
while the parts which are easier to explain in free text are in italic.
⊕ denotes string concatenation, while ⇒ outputs the result of the algorithm

直接上三张图,看看大佬的工作:对于不同的流程(for,switch,if,do)给出的拆分方案,一切都安排得明明白白

文章默认预设变量与函数主体分离,并在开始处完成初始化(这其实也是个大问题,受限于文章篇幅不多加讨论)

image.png

文章举例第六图的transform_if,分支递归调用transform_block的内容。对于非结构性的流程,使用堆栈解决。

image.png

同样的,对于try语句,通过递归调用flatten_block来取代transform_block

image.png

老实说,这部分看的很迷糊,讲述了混淆具体流程的伪代码,但离工程实践还有些距离

实验结果

使用Columbus framework的CAN C++ analyzer进行分析,并进行基准测试

使用McCabe Cyclomatic Complexity Metric 测量软件复杂度,检验扁平控制流的混淆效果,实验结果表示函数复杂度有3到5倍的提升

image.png

实验还对使用扁平控制流程序的资源消耗进行了统计。通过计算抽象语法树(AST)的节点树计算函数复杂度,使用X86架构GCC计算编译时间,测试环境是带有3Ghz CPU的Linux系统。从平均结果来看,函数大小和运行时间相比较于未处理前都翻了一倍。

如果只对特定函数(一些关键函数)做扁平化处理,时间和大小会更少更短,更符合实际需求。

image.png

相关研究

Collberg, Thomborson , Low 等人讲述了混淆的重要性,并总结了有关Java的混淆技术,并在后期文章里讲述了通过对java控制流插入花指令进行混淆,这种方法不会显著影响代码体积与运行时间

Sarmenta的报告研究了参数混淆,报告说明了如何使加密的函数被混淆,或者混淆的函数得到加密

Wroblewski在其博士论文中从汇编层面讨论了Low的代码混淆方法,并给出了新的混淆方法

文章提到了一个名为COBF的工具,但其指向的链接已失效。该工具实现了C++程序的重命名。

未来展望

文章中提到的扁平流控制算法,可以适用于多种编程语言,能有效提高函数复杂度。

改变扁平流程块的顺序可有效提高函数混淆效果,使用goto也能增加理解难度。

工具

用于解决Ollvm混淆用到的工具

Triton

angr

CTF题目

buu-[RoarCTF2019]polyre