Algorithm^[57]

【重读经典】YOLO的进化之路（下）

视觉

【重读经典】YOLO的进化之路（下）

YOLOv9 和 YOLOv4/v7 一脉相承的作品，但是 Anchor-Free。 PGI 可编程梯度信息全称 Programmable Gradient Information，这是一个辅助监督框架，目的是解决深度网络逐层传播的信息损失问题。 PGI 包含 3 个主要组件：主分支，辅助可逆分支

23

【重读经典】YOLO的进化之路（中）

算法

【重读经典】YOLO的进化之路（中）

没想到 YOLOv1 到 YOLOv4 就已经写了快 20000 字…… 编辑页面卡的不行，我不得不分几篇写完。YOLOv1 到 YOLO 26一共 12 篇，正好分上中下三篇。 YOLOv5 重量级来了，Ultralytics 闪亮登场了。第一个没有论文的 YOLO 正式版本，但它成为了工业界的事

41

【重读经典】YOLO的进化之路（上）

算法

【重读经典】YOLO的进化之路（上）

自 2016 年 YOLOv1 发布至今的十年里，YOLO 的核心版本已一路演进到了 v26——不过这其中包含了一次版本大跳跃：官方为了统一命名规范，直接跳过了 v13 到 v25。回想起我使用 YOLO 的历程：从只会用官方的 COCO 数据集训练，到使用 MMLab 的各种训练框架，再到自己修

46

【重读经典】极坐标BEV方法

AI

【重读经典】极坐标BEV方法

极坐标BEV的表示方法：在BEV空间按照角度和半径两个维度进行划分，而非笛卡尔坐标系下的均匀矩形网格。自车近处高分辨率，远处低分辨率，契合相机近大远小的成像特点。核心优势非均匀网格划分&分辨率优化极坐标BEV以ego为中心，角度方向采用固定步长划分，径向长尾分布不均匀划分。角度划分：θ ∈

36

3D稀疏卷积 3D Sparse Convolution

点云

3D稀疏卷积 3D Sparse Convolution

点云数据体素化后，有90%+的Voxel是空的，如果像VoxelNet那样直接使用3D Conv，计算量太大。左图是稀疏的2D Tensor，深灰色像素都是0，浅灰色是non-zero点。右图是稀疏的3D Tensor，只有红色的体素才是non-zero。因此提出了3D稀疏卷积——3D Spa

34

【重读经典】点云深度学习网络的范式变迁：PointNet， VoxelNet和PointPillars

点云

【重读经典】点云深度学习网络的范式变迁：PointNet， VoxelNet和PointPillars

PointNet 直接以 N×3N \times 3的Raw PointCloud作为输入，每个点使用 (x,

35

【重读经典】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

算法

【重读经典】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

自动驾驶常见传感器包括 Camera，LiDAR，Radar 等传感器。相机能提供丰富语义，LiDAR 提供准确的空间信息，雷达能进行速度估计。对于多传感器方案，当时的传感器投影存在信息损失的问题： LiDAR->Cam：存在几何损失，像素坐标系中相邻的像素点，在 3D 空间中可能距离很远。设想

67

【重读经典】BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

算法

【重读经典】BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

先看论文题目 Multi-Camera：多相机纯视觉方案，Camera-based的mAP天然比LiDAR-based和Fusion-based的要低 Spatiotemporal：时间空间 Transformer：用到了Transformer架构以及Attention机制创新点论文摆脱了之前L

76

nuscenes-devkit的使用

算法

nuscenes-devkit的使用

nuScenes数据集说明 - FunnyWii's Zone 一文了解nuScenes数据集的结构。我们使用nuscenes-devkit进一步学习数据集的使用。安装非常简单，建议python版本3.12和3.9。 pip install nuscenes-devkit devkit使用仍以

65

nuScenes数据集说明

算法

nuScenes数据集说明

nuScenes数据集包含6个Camera，1个LiDAR，5个Radar，1个GPS以及IMU。数据量比KITTI大得多，所以目前Occ Networks更多使用nuScenes数据集。数据集分成两大块：Full和Mini。 Full Dataset包含140万Camera图像，39万LiDA

85