介绍一个有意思的项目--PHP-Fuzzer

TL;DR

这是一个比较有启发意义的项目，把现代fuzzer中的coverage guided的形式应用到了php上,现在对于php应用的安全的测试主要分布在基于黑盒的reqeust和response动态测试和静态的白盒审计,还有一个比较有前景的rasp,但是需要涉及php的内核。

php-fuzzer这个项目，我其实以前在想过一些方面的问题，但是又想到php应用太依赖于输入了，比如一个请求可能对应的一个单独的处理过程，但是这个调用过程并不是显式的，比如php里面的autoload,相当于一个间接调用，间接调用在静态分析过程中是非常致命的，往往不能找到准确的CFG（control flow graph),没有准确的CFG，就很难有准确的DFG(data flow graph). 种种原因很难在php下实现比较好的安全测试。

在这篇文章里面，我想讲一下php-fuzzer的原理和比较有意思点，它的作者是写php-parser的作者，php-parser这个项目就不用吹了。

0x00 整体架构

要分析一个fuzzer,应该从三个角度来看：

输入产生的机制
输入传递的机制
监控被测系统的机制

这个项目需要php > 7.4, 因为用一个php的新特性强类型--typed php ,看来php真在向java发展。

0x01 Generator

前面说了这个项目是基于覆盖率反馈的，那么它是如何计算覆盖率呢？其中一个比较重要的概念就是基本块（basic block), 为了提供基于覆盖率的反馈，需要给每个基本块一个独一无二的命名，并且在基本块结尾插入额外的代码，用来作为反馈，表示在一次执行的过程中，经过了这个基本块。

Hook include

php-fuzzer也是遵循了上面的过程。需要对被测php应用，进行语法分析，划分基本块，插入额外代码，重塑被测php应用。php-fuzzer使用的是动态插桩，并不会改变原php应用本地代码。这就涉及到如何在运行被测php应用的过程中去插桩？

运行一个php应用通常是以一个php文件作为入口点，然后动态的包含其他文件。如果我现在要去运行一个php应用，除了通过命令 php target.php 还可以我重新使用一个new.php去动态包含target.php,然后php new.php。

如果有一个方案是在include某个php文件之前，对这个php文件内容动态插桩，通过这个方案，我就能对整个php应用进行插桩，但是有一个问题是如何hook include? 我们不能去改变被测php应用的本地代码，而且如果改php内核来实现又太过于复杂，没必要。

所以在php-fuzzer里面第一个有意思的地方在这里，如何在php代码层面动态的hook include和require, 作者这里用了一个有意思的库https://github.com/nikic/include-interceptor, 通过stream_wrapper_register来实现,为什么hook file:// 协议就能hook include呢？因为在php内核里面对于IO的处理都有不同协议的wrapper, 对于include本地文件，那就是使用的file:// 协议的wrapper, 如果include 远程链接,就是使用的http://的wrapper。

用了上面这个办法，php-fuzzer就能实现在动态include目标文件之前改变文件内容实现插桩。

插桩

插桩相对来说好理解，先通过php-parser生成目标php文件的语法树,构造自定义的visitor,针对指定的节点插入额外反馈代码。

   $___key = (Context::$prevBlock << 28) | BLOCK_INDEX;
   Context::$edges[$___key] = (Context::$edges[$___key] ?? 0) + 1;
   Context::$prevBlock = BLOCK_INDEX;

其中基本块的命名通过一个累加变量来实现

public function getNewBlockIndex(int $pos): int {
        $blockIndex = $this->blockIndex++;
        $this->fileInfo->blockIndexToPos[$blockIndex] = $pos;
        return $blockIndex;
    }

edge的定义为 prevBlockIndex << 28 | curBlockIndex,前一个块index左移28位或上当前块index,就是一个边界的命名。怎么划分php里面的基本块呢？

逻辑结构
- if
- else if
- else
- while
- for
- case
- catch
- switch
- ...
逻辑运算
- &&
- ||
- ！
- ==
- ！=

上述目标节点都可能影响控制流，针对不同的节点，插桩方法也不同，例如：

if($condition){
	//$stub
}
//stub

没有else的if 需要再上面两个地方插桩，但如果有esle的if,又有不同

if($condition){
	//$stub
}else{
	//$stub
}

现在这个if结构外面就不需要插桩了，还需要考虑一种情况：

if($condition1 && $condition2 //$stub){

}

上面插桩是额外的stmts而不是表达式,所以这里需要额外引入一种关于expr插桩的技巧：

if($condition1 && trace($conditions2)){

}

这里trace的返回值还是$conditions2不影响整体的逻辑。上述问题php-fuzzer均有考虑，这里就介绍完了一些插桩里面的小技巧,有点类似注释的fuzzer。

语料&&输入队列

输入可以用户提供，也可以初始化动态生成，一次输入执行的结果，就是关于edges[edge=>hit]的数组,需要进一步抽象相关的关系：

//count
//0: 0 hits
//1: 1 hit
//2: 2 hits
//3: 3 hits
//4: 4-7 hits
//5: 8-15 hits
//6: 16-127 hits
//7: >=128 hits

$feature = $count << 56 | $edge
//前面prevblock 和 curblock 的index使用了前56位，总体是64int

对比每次一次执行结构里面features,记录新的feature,如果有新的feature，就代表当前输入是能触发新的执行路径，就把当前的输入加入到输入队列，语料就是输入队列中总的输入字符串。

其中有一些小策略，两次输入有相同的features,取最短的输入，删除队列里面较长的输入。php-fuzzer也有精简输入语料的功能，保留最短和有不同features的输入。

输入变异和交叉

php-fuzzer有不同的变异策略，同样也有交叉策略，使用两个输入构造新的输入，其中相关函数都是基于libfuzzer，也有libfuzzer里面字典策略，字典策略有时候能提高效率，减少畸形的输入。

其中也有一个扩展输入长度的策略，如果在某个输入长度，迭代次数超过了相关最大次数，就可以尝试扩展输入长度的上限。

这些策略都是一些常规随机策略。

0x01 delivery

其中的输入传递策略，也就是我之前说通过include来执行目标php应用，所以再使用php-fuzzer之前你需要写一个target.php，php-fuzzer通过include这个target.php实现动态插桩和来设定输入目标，通常是是一个闭包函数。可以看看项目下example里面的例子：

<?php declare(strict_types=1);

/** @var PhpFuzzer\Fuzzer $fuzzer */

$autoload = __DIR__ . '/PHP-CSS-Parser/vendor/autoload.php';
if (!file_exists($autoload)) {
    echo "Cannot find PHP-CSS-Parser installation in " . __DIR__ . "/PHP-CSS_Parser\n";
    exit(1);
}

require $autoload;

$fuzzer->setTarget(function(string $input) {
    $parser = new Sabberworm\CSS\Parser($input);
    $parser->parse();
});

其中包含traget.php的过程在php-fuzzer中也是闭包执行，用来传递$fuzzer实例。

(static function(Fuzzer $fuzzer) use($path) {
            require $path;
        })($this);

0x02 monitor

我之前也好奇什么时候代表目标应用存在问题？二进制程序有crash或者hang可以代表问题的发现，php库类应该不会发生crash,php代码默认内存安全？其中相关php库类也应该有自己的错误处理机制。php-fuzzer对于错误的发现代码量也很少：

$crashInfo = null;
        try {
            ($this->target)($input);
        } catch (\Exception $e) {
            // Assume that exceptions are not an abnormal conditions.
        } catch (\ParseError $e) {
            echo "PARSE ERROR $e\n";
            echo "INSTRUMENTATION BROKEN? -- ABORTING";
            exit(-1);
        } catch (\Error $e) {
            $crashInfo = (string) $e;
        }

从代码上来看期望的Error的产生，对于为什么这样，作者给相关解释说：Exception的抛出通常是因为被测应用的自身错误处理的反馈，还有一个ParseError可能在插桩过程由于php文件本身问题解析语法树发生的问题。Error产生于php本身造成的错误。

php-fuzzer 注册了错误处理的handler, 当php内部错误触发时，能及时抛出一个Error：

set_error_handler(function($errno, $errstr, $errfile, $errline) {
            if (!(error_reporting() & $errno)) {
                return true;
            }

            throw new \Error(sprintf(
                '[%d] %s in %s on line %d', $errno, $errstr, $errfile, $errline));
        });

同时也考虑php代码本身的逻辑除外，超时也抛出一个Error，可能当前输入陷入死循环。在错误机制的处理过程也可以看到，能检测的代码问题本身还是比较局限。并不是用来检测通常web安全里面存在的问题。

0x03 思考

这个项目整体给我还是很有启发的，这是一次有意思的尝试，其中也有人在twitter上问作者本人这个东西和其他的php lib的检测有什么不一样？也有人把它和fuzz PHP内核方面搞混，它的意义在于把model fuzzer 技术尝试到了php应用层面上。可能在php代码动态插桩和边界计算有些昂贵，正如作者说的那样，静态属性的边界表示确实很昂贵，可能考虑把这个插桩过程放在一个php 扩展上。那么试想把这个工作放在php 扩展上，需要做哪些工作呢？其实是相同的过程，php内核里面也有ast的中间过程，所以我们需要插入的是opcode中间指令，opcode抽象成函数调用，参数是特殊的基本块标志，类似LLVM里面的asan，同时也提供php层面的函数计算覆盖率。

如果把这个项目的方法试着推广到一般web应用，其实是比较难的，还是前面那个问题如何解决间接调用,解决不了间接调用就没法构造正确的执行路径，如果尝试结合黑盒测试，爬虫拿到有效的链接，我们可以忽略前置路径的构造，然后结合php source的插桩，这种情况下我们能探索什么问题，肯定不是一般的安全问题，因为一般的安全问题，黑盒测试构造的payload足以覆盖，可能是更深的逻辑问题？ Open Problem )