FunnyWii
FunnyWii
Published on 2024-06-07 / 217 Visits
0
0

单目相机的深度图,以及绝对深度和相对深度

深度图

深度图 (Depth Image, Depth Map),将图像中的每个像素都编码为相机到场景中某个点的距离,可以提供图像中物体的空间信息。深度图通过坐标转换可以转换为点云数据,organized点云也可以转换为深度图数据。

Depth Map.png

绝对深度和相对深度

  • 绝对深度:空间中物体和相机间的距离,有量纲。
  • 相对深度:描述物体的远近程度,没有量纲。可以理解为[0,255]之间的一个数值(8-bit),更大的数值意味着物体更远,但是不知道具体多远。

开源项目

介绍个开源项目 MiDaS
所谓MiDaS,Multiple Depth Estimation Accuracy with Single Network 是基于残差模型的深度学习方法,建立在Res-Net的基础上。最新的v3.1论文 MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation

网络结构

  1. Encoder-Decoder
    MiDaS基于这个架构,Encoder负责高级特征提取,计算得到的Tensor会作为Decoder的输入,Decode通过上采样根据高级特征生成深度图。MiDaS设计了一种Anchor来连接Encoder和Decoder。
  2. Backbone
    使用多个新的Backbone,包括BEiT512-L,Swin-L,LeViT-224等。这些Backbone有不同的精度和性能。

下图展示了在RTX3090显卡下,不同Backbone的性能:

Depth Map网络性能.png

在实际选择Backbone时,需要自行在FPS和精度间权衡,下图则展示了不同Backbone的深度图结果:

不同Backbone的深度图.png


Comment