深度图
深度图 (Depth Image, Depth Map),将图像中的每个像素都编码为相机到场景中某个点的距离,可以提供图像中物体的空间信息。深度图通过坐标转换可以转换为点云数据,organized点云也可以转换为深度图数据。
绝对深度和相对深度
- 绝对深度:空间中物体和相机间的距离,有量纲。
- 相对深度:描述物体的远近程度,没有量纲。可以理解为[0,255]之间的一个数值(8-bit),更大的数值意味着物体更远,但是不知道具体多远。
开源项目
介绍个开源项目 MiDaS
所谓MiDaS,Multiple Depth Estimation Accuracy with Single Network 是基于残差模型的深度学习方法,建立在Res-Net的基础上。最新的v3.1论文 MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
网络结构
- Encoder-Decoder
MiDaS基于这个架构,Encoder负责高级特征提取,计算得到的Tensor会作为Decoder的输入,Decode通过上采样根据高级特征生成深度图。MiDaS设计了一种Anchor来连接Encoder和Decoder。 - Backbone
使用多个新的Backbone,包括BEiT512-L,Swin-L,LeViT-224等。这些Backbone有不同的精度和性能。
下图展示了在RTX3090显卡下,不同Backbone的性能:
在实际选择Backbone时,需要自行在FPS和精度间权衡,下图则展示了不同Backbone的深度图结果: