BEV 感知模型实用的一些经验
2023-1-24 18:2:35 Author: 谈思实验室(查看原文) 阅读量:22 收藏

点击上方蓝字谈思实验室

获取更多汽车网络安全资讯

BEV 带来的优势:

1. 实际的运行性能提升

虽然这个看起来比较反直觉。但是实际上性能反而比 2D 任务更好,而且还能保持基本对标甚至更好的指标。同样的两个任务,我们使用更少的算力(1/3 不到),由单相机扩展到 6相机,依然保持了实时运行。在测试指标上,基本保持了一致。当然,我们的 BEV 感知范围减少了侧向和后向的范围。

相比传统的方案,主要的提升来源:

  1. 整个 Pipeline 处理更加简单和一致,相比一些传统的方案,代码量降低了很多,在工程方向上,这个极大的一个优点。越少的代码,代表越少的bug,越低的维护成本。

  2. 由于没有了 infer 后的一些额外后处理工作带来的指标降低,模型结构可以进一步简化,不用在模型这里去补偿。

  3. Multi-scale 的融合集中在模型内部。

  4. 在 BEV 的统一框架下,我们可以将多个任务融合在一个模型中统一处理

2. 稳定性提升

这个无需怀疑,我们的经验和之前 Tesla AI day 上的一些宣传是一致的:

  • 模型预测正确的情况下,车道线的内外八、大幅度的抖动基本不会出现。单单这一点,已经解决了非常多的问题。

  • 从上一点引申出来,之前的很多问题都可以很容易的归约到一个问题上:更多的数据。看起来很粗暴,但是这是数据驱动的前置条件,不满足这个条件,就不用谈什么数据驱动。

3. 多目模型无盲区

在使用多目的 BEV 模型后,车身周边的障碍物感知是提升显著的。由于多个原因,评测集合中的车身侧后的 GT 是有盲区的,模型都可以正常检测。目标在切换不同相机感知范围时,在我们自己的测试集上看,很少有跳变。

4. 功能扩展难度降低

由于这一框架更加稳定,通用,功能扩展基本都可以在 head 上简单增加内容。比如 Tracking Embedding 的功能,代码 + 验证训练,仅仅需要 3 天,实际上绝大部分时间都在训练上。

问题:

1. 硬件支持

主要的来源是算子限制。最近一年中,BEV 的论文,百家齐放。但是落实到我们使用的 AI 加速器上,大部分都不支持。即使勉强支持,性能也不行。我们最终还是切换到 MLP 的方案上实现上车运行。

2. 信息丢失

2D -> 3D 的转换模块带来的信息损失,带来的直接问题就是远距离、小目标的检测不理想。不过由于目前阶段的感知范围相对比较小,还没有要求到100m开外,所以整体上表现还不明显。但是这个问题可能依然是未来必须要面对的问题,我这里有一部分的工作也在尝试缓解这个问题。

3. 数据需求

数据量需求较大:

由于2D -> 3D 的部分我们使用的是 MLP,非常容易过拟合。

视觉上 3D 本身的 augmentation 很难做,而且对于硬件标定有依赖。

生成难度也较大:目前阶段还大量使用激光来辅助数据生成,但是这样的方案由于传感器的原因,在未来是没法扩展的。这也是目前阶段我们在尝试考虑的一个问题。

随着多目任务的引入,带来了一个很难避免的问题:模型和相机的布置基本处于一个硬绑定的状态。对于普通的公司,必须面对这个问题:怎么样可以用尽量少的数据、更快的适配新的车型。在我看来这是一个体系化的解决方案,数据、硬件、算法、工程,都需要针对这一问题作出适应。

目前来看,特斯拉的 4D 标注在静态元素上确实是一个比较符合逻辑的方案,成本和效率都比较高(当然也会有一些问题)。但是动态元素上的工作,我们还在考虑。

挑战:

1. 感知面对战争迷雾的挑战

当然这个和 BEV 本身并没有直接关系。但是感知模块即使做到完美也存在盲区、遮挡、极限范围外的问题。所以,如何更好的处理不确定性,增加容错度是依然需要面对的问题。

我自己爱说的一句:感知做到最后都是预测。一旦涉及到预测,就引入了不确定性和概率。如何利用模型来应对这个问题,应该是未来工作内容的一个重点。

2. 新的 2D -> 3D 转换模块的探索

在学界,已经有很多方案。主要方向:利用投影、Transformer 及其变体、直接的MLP。

目前从应用角度来看,都还有或多或少的缺陷。怎样实用化一个新的转换模块,也是需要考虑的。公司内部也有其他的 team 做了一些探索性的工作,提供了一些情报支持,我们自己也在开展下一代转换模块的选型和试验。

从我个人的角度来看,逐渐的减少先验限制才可能会有更好的结果。当然,从工业界研发来看,要把握好时机和程度,做好平衡。

3. 数据量的提升

BEV 方案相对来说是比较吃数据的。当然,也没有夸张到是数据怪兽,非特斯拉的数据量不行,正常的公司慢慢迭代稳定后,是可以达到一个基准线的。

本身引入 3D 空间后,augmentation 变得很难,尤其是多相机相互之间的关系让这个问题更加复杂。最可靠的方法反而是:堆更多的数据。

码上报名

WISS 2023 第四届世界物联网安全及数据安全治理峰会火热报名中,3月9-10日,上海

码上报名

AutoSec 7周年年会暨中国汽车网络安全及数据安全合规峰会,5月10-11日,上海

更多文章

智能网联汽车信息安全综述

软件如何「吞噬」汽车?

汽车信息安全 TARA 分析方法实例简介

汽车FOTA信息安全规范及方法研究

联合国WP.29车辆网络安全法规正式发布

滴滴下架,我却看到数据安全的曙光

从特斯拉被约谈到车辆远程升级(OTA)技术的合规

如何通过CAN破解汽

会员权益: (点击可进入)谈思实验室VIP会员

END

微信入群

谈思实验室专注智能汽车信息安全、预期功能安全、自动驾驶、以太网等汽车创新技术,为汽车行业提供最优质的学习交流服务,并依托强大的产业及专家资源,致力于打造汽车产业一流高效的商务平台。

每年谈思实验室举办数十场线上线下品牌活动,拥有数十个智能汽车创新技术的精品专题社群,覆盖BMW、Daimler、PSA、Audi、Volvo、Nissan、广汽、一汽、上汽、蔚来等近百家国内国际领先的汽车厂商专家,已经服务上万名智能汽车行业上下游产业链从业者。专属社群有:信息安全功能安全自动驾驶TARA渗透测试SOTIFWP.29以太网物联网安全等,现专题社群仍然开放,入满即止。

扫描二维码添加微信,根据提示,可以进入有意向的专题交流群,享受最新资讯及与业内专家互动机会。

谈思实验室,为汽车科技赋能,推动产业创新发展!


文章来源: http://mp.weixin.qq.com/s?__biz=MzIzOTc2OTAxMg==&mid=2247518031&idx=2&sn=bc49f5deb0706df3fac058e716a75199&chksm=e927c394de504a82c884b4f949761f86195ac43fa670cbcc4ca535b84ecc23824bb3f549c863#rd
如有侵权请联系:admin#unsafe.sh