单目相机的深度图，以及绝对深度和相对深度

June 07, 2024 作者: funnywii 分类: 算法编程视觉浏览: 566 评论: 0

深度图

深度图 (Depth Image, Depth Map)，将图像中的每个像素都编码为相机到场景中某个点的距离，可以提供图像中物体的空间信息。深度图通过坐标转换可以转换为点云数据，organized点云也可以转换为深度图数据。

Depth Map.png

介绍个开源项目 MiDaS
所谓MiDaS，Multiple Depth Estimation Accuracy with Single Network 是基于残差模型的深度学习方法，建立在Res-Net的基础上。最新的v3.1论文 MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation

Encoder-Decoder
MiDaS基于这个架构，Encoder负责高级特征提取，计算得到的Tensor会作为Decoder的输入，Decode通过上采样根据高级特征生成深度图。MiDaS设计了一种Anchor来连接Encoder和Decoder。
Backbone
使用多个新的Backbone，包括BEiT~~512~~-L，Swin-L，LeViT-224等。这些Backbone有不同的精度和性能。

下图展示了在RTX3090显卡下，不同Backbone的性能：

Depth Map网络性能.png

在实际选择Backbone时，需要自行在FPS和精度间权衡，下图则展示了不同Backbone的深度图结果：

不同Backbone的深度图.png