众所周知,C 语言中使用字符数组来表示字符串,并在字符串末尾使用空字符 \0
标识字符串结束。
如果字符串中包含 \0
或者二进制数据,就会导致 strlen 函数获取的长度跟字符串实际的长度不一致。
int main()
{
char *str1 = "hello her-cat";
char *str2 = "hello\0her-cat";
char *str3 = "hello\x00her-cat";
printf("str1: %lu\n", strlen(str1));
printf("str2: %lu\n", strlen(str2));
printf("str3: %lu\n", strlen(str3));
return 1;
}
// 输出:
// str1: 13
// str2: 5
// str3: 5
可以看到 str2 和 str3 都只统计了 hello 的长度,为什么会出现这种情况?
因为 strlen 函数是通过遍历字符串来计算长度的,时间复杂度为 O(n)。在遍历的过程中,如果某个字符等于 \0
, 就会停止遍历并返回第一个字符到该字符的字符数量,也就是字符串的长度。
当字符串中包含 \0
就会导致提前停止遍历,导致得到错误的字符串长度。所以我们称 C 语言中的 strlen 函数是非二进制安全的。
PHP 的 strlen 函数是二进制安全的,因为它不依赖于 \0
确定字符串的长度。
<?php
$str1 = "hello her-cat";
$str2 = "hello\0her-cat";
$str3 = "hello\x00her-cat";
printf("str1: %lu\n", strlen($str1));
printf("str2: %lu\n", strlen($str1));
printf("str3: %lu\n", strlen($str1));
// 输出:
// str1: 13
// str2: 13
// str3: 13
在 PHP 字符串结构体中,使用了 len 字段保存字符串的长度,调用 strlen 时读取该值就能得到字符串的长度。
struct _zend_string {
zend_refcounted_h gc; // 垃圾回收信息
zend_ulong h; // hash 值
size_t len; // 字符串长度
char val[1]; // 柔性字节数组,保存字符串
};
// 读取字符串长度的宏
#define ZSTR_LEN(zstr) (zstr)->len
ZEND_FUNCTION(strlen)
{
zend_string *s;
// 解析 strlen 的参数 s
// 1, 1 表示最小参数个数和最大参数个数
ZEND_PARSE_PARAMETERS_START(1, 1)
Z_PARAM_STR(s)
ZEND_PARSE_PARAMETERS_END();
// 返回字符串长度
RETVAL_LONG(ZSTR_LEN(s));
}
《Redis 设计与实现》中解释了什么是二进制安全:
SDS 的 API 都是二进制安全的(binary-safe): 所有 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组里的数据,程序不会对其中的数据做任何限制、过滤、或者假设 —— 数据在写入时是什么样的, 它被读取时就是什么样。
为什么 C 语言的 strlen 函数不是二进制安全的?
因为它依赖字符串中的数据,对字符串中的数据做了过滤,只要字符串出现 \0
就认为字符串结束,导致计算长度时读取到的数据跟写入的数据不一致。
那么 Redis 是怎么解决二进制安全的问题呢?
在书中也有提到,由于直接使用 C 字符串存在二进制安全问题,所以不能用 C 字符串保存二进制数据(文本、图片)。
Redis 作为一个 KV 数据库,肯定不能限制用户存取的数据的类型,为了解决这个问题,Redis 设计了 SDS(Simple Dynamic String) 数据结构,又称简单动态字符串,结构体如下:
struct sdshdr {
// 记录 buf 数组中已使用字节的数量
// 等于 SDS 所保存字符串的长度
int len;
// 记录 buf 数组中未使用字节的数量
int free;
// 字节数组,用于保存字符串
char buf[];
};
这里用的是 Redis 3.0 版本的 SDS,新版本的 Redis 对 SDS 进行了优化,结构体也有变化。
与 PHP 处理的方式相同,也是通过 len 的字段用来保存字符串的长度,不仅避免了二进制安全问题,同时提高了获取字符串长度的效率,不需要每次都去遍历 buf 字节数组。
同时,SDS 相对于 C 字符串具有以下优点:
- 常数复杂度获取字符串长度
- 杜绝缓冲区溢出
- 减少修改字符串时带来的内存重分配次数
- 二进制安全
- 兼容部分 C 字符串函数
关于 SDS 完整的实现可以查看 SDS 与 C 字符串的区别。
上面例子都是关于字符串的,这里再写一个二进制数据的例子。
首先用 PHP 生成二进制数据写入到文件中,并打印出来。
<?php
$str = sprintf('%s%s%s', pack('N', 123), pack('n', 456), pack('n', 789));
file_put_contents('data.dat', $str);
var_dump($str);
// 输出:
// string(8) "{�"
因为 PHP 对字符串读写是二进制安全的,所以能够正确打输出长度和内容。
接下来用 C 语言读取 data.dat 文件并输出。
int main()
{
FILE *fp;
char str[8];
fp = fopen("data.dat", "r");
fread(&str, 8, 8, fp);
printf("len: %lu\n", strlen(str));
printf("str: %s\n", str);
return 1;
}
// 输出:
// len: 0
// str:
意料之中的长度为0、内容为空,用 GDB 调试可以看到 str 其实是有内容的。
(gdb) b main
Breakpoint 1 at 0x792: file /tmp/tmp.8inXlhJrYC/main.c, line 5.
(gdb) r
Starting program: /home/vagrant/code/her-cat/binary-safe/build/bin/main
Breakpoint 1, main () at /tmp/tmp.8inXlhJrYC/main.c:5
5 {
(gdb) u 12
main () at /tmp/tmp.8inXlhJrYC/main.c:12
12 printf("len: %lu\n", strlen(str));
(gdb) p str
$1 = "\000\000\000{\001\310\003\025"
最后总结一下,二进制安全就是:严格按照二进制的方式进行读写数据,不关心数据的内容,写入是什么样,读取就是什么样。
如果不能做到这些,那就是非二进制安全的。
一个没有感情的二进制数据读写工具。