标签：Computer Vision - FunnyWii's Zone

点云

3D稀疏卷积 3D Sparse Convolution

点云数据体素化后，有90%+的Voxel是空的，如果像VoxelNet那样直接使用3D Conv，计算量太大。左图是稀疏的2D Tensor，深灰色像素都是0，浅灰色是non-zero点。右图是稀疏的3D Tensor，只有红色的体素才是non-zero。因此提出了3D稀疏卷积——3D Spa

FunnyWii

14

点云

【重读经典】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

BEVFusion有两篇论文：一篇名为《BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework》，发表于2022年。另一篇名为《BEVFusion: Multi-Task Multi-Sensor Fusion with Unif

FunnyWii

15

算法

【重读经典】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

自动驾驶常见传感器包括相机，LiDAR，雷达等传感器。相机能提供丰富语义，LiDAR提供准确的空间信息，雷达能进行速度估计。对于多传感器方案，当时的传感器投影存在信息损失的问题： LiDAR->Cam：存在几何损失，像素坐标系中相邻的像素点，在3D空间中可能距离很远。设想一个人站在墙前面，在像素

FunnyWii

50

算法

nuscenes-devkit的使用

nuScenes数据集说明 - FunnyWii's Zone 一文了解nuScenes数据集的结构。我们使用nuscenes-devkit进一步学习数据集的使用。安装非常简单，建议python版本3.12和3.9。 pip install nuscenes-devkit devkit使用仍以

FunnyWii

48

算法

nuScenes数据集说明

nuScenes数据集包含6个Camera，1个LiDAR，5个Radar，1个GPS以及IMU。数据量比KITTI大得多，所以目前Occ Networks更多使用nuScenes数据集。数据集分成两大块：Full和Mini。 Full Dataset包含140万Camera图像，39万LiDA

FunnyWii

63

算法

Ubuntu22部署FlashOcc踩坑实录

环境配置 conda create --name FlashOcc python=3.8.5 conda activate FlashOcc pip install torch==1.10.0+cu111 torchvision==0.11.0+cu111 torchaudio==0.10.0 -f

FunnyWii

57

点云

【重读经典】Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

LSS是NVIDIA在ECCV2020上发表的文章。理解一下论文标题中的Lift, Splat, Shoot三个单词。这三个单词对应模型中三个核心步骤。 Lift：提升。2D图像特征提升到3D视锥空间特征。 Splat：泼溅。所有相机生成的3D视锥特征，泼洒到统一的BEV平面网格。 Shoot：

FunnyWii

26

算法

【重读经典】3D Bounding Box Estimation Using Deep Learning and Geometry

Deep3DBox是一篇比较早的使用单目相机进行3D目标检测和姿态估计的方法。 Deep3DBox先用CNN回归目标的方向和尺寸，因为这两类属性稳定性比较高。然后结合2D BBOX的几何约束求解平移量，以生成完整的3D BBOX。有些传统的方法基于PnP，通过2D-3D关键点对应关系求解姿态，需要

FunnyWii

28

算法

【重读经典】DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving

标题中的Affordance一词，本意是”预设用途，功能特性“，最初在知觉心理学和设计学领域出现。后来在人机交互领域，Affordance的含义变成了：一个产品让用户自然领悟到用法的能力。在机器人领域（自动驾驶和机器人的感知不分家），被引申为可以执行的潜在动作，即在特定情况下哪些动作是可执行的。

FunnyWii

67

算法

多传感器融合——后融合

多传感器融合的方案可以分成前融合（Early Fusion）方案和后融合（Late Fusion）方案。前融合也叫特征级融合，不同传感器的数据会在特征级别进行合并，也就是说，不同模态的数据经过处理和合并后会得到一个特征集合。一般来说，每个模态数据的特征会被分别提取，然后被提取到的特征会被合并为一个

FunnyWii

519

Computer Vision[25]

Computer Vision^[25]