点云补全论文阅读总结

Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds1

论文提出了一种针对 LiDAR 雷达获得的存在运动物体场景的目标跟踪方法

论文并不是纯粹点云补全,而是针对运动中的物体(即在场景中发生刚性变换的物体)进行补全,略过

Monocular 3D Object Reconstruction with GAN Inversion2

论文提出了一种基于 GAN 网络的由图像生成具有相似纹理特征的 Mesh 方法

略过

3D-PL: Domain Adaptive Depth Estimation with 3D-aware Pseudo-Labeling3

论文提出了一种利用二维图像和三维点云进行标注深度图像数据集的单目图像深度估计方法

论文并不是关于点云补全,而是针对深度图进行补全,略过

RigNet: Repetitive Image Guided Network for Depth Completion4

论文提出了一种基于多尺度的稀疏深度图补全方法

论文并不是关于点云补全,而是针对深度图进行补全,略过

Multi-Modal Masked Pre-Training for Monocular Panoramic Depth Completion5

论文提出了一种使用随机 Mask 训练的单目 360° 全景图片的稀疏深度图补全方法

论文并不是纯粹点云补全,针对全景图片的点云进行补全,略过

ShapeFormer: Transformer-based Shape Completion via Sparse Representation6

论文提出了一种基于注意力机制和点云体素化表示编码器解码器 (VQDIF) 的补全 / GAN 方法,输入为缺失的点云,转换成 DIF 表示后进行补全 / 生成,最后再转换为 Mesh 输出

  • 深度隐函数 DIF

与图像补全不同,在 3D 形状补全中,输入也可能含有噪声,若是完整保留输入必然会产生嘈杂的结果

潜在的研究方向,可以放着,但是并不是纯点云研究,优先级并不高

Fast Algorithm for Low-rank Tensor Completion in Delay-embedded Space7

论文提出了一种利用多路延迟嵌入变换实现张量 / 图像补全的方法

论文并不是纯粹点云补全,略过

Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion8

论文提出了一种利用 LiDAR 稀疏点云和二维彩色图像的多模态融合实现目标检测的方法,并没有涉及到补全部分

论文并不是纯粹点云补全,而是尝试使用多模态进行补全,略过

3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow9

论文提出了一种基于 Attribute Flow 模型实现从单张二维 RGB 图像重建为 3D 点云的方法

但在论文中也提到该方法可以用在点云补全,但是文中并没有详细说明如何修改网络,而是说参照 VRCNet10 的设置,VRCNet 在待阅读论文中,将详细查看具体方法

暂留

[ ] VRCNet 补充引用

Learning Local Displacements for Point Cloud Completion11

Introduction & Conclusion

论文提出了以下内容

  • 基于编码器-解码器架构的对象点云补全和场景点云补全算法模型
    • 针对局部点云的特征提取方法
    • 能够提取点云的特征的邻域池化算法
    • 创新的上采样方法
  • 结合上述处理方法并结合 Transformer 架构的算法模型
  • 论文中提到的点云补全的研究现状

    FoldingNet 和 AtlasNet 是最早提出利用 PointNet 提取的特征进行点云补全的两个网络,方法是将一个或多个二维网格变形为所需的形状。 PCN 在上述两个模型的基础上提出使用更小的 2D 网格进行变换以重建更精细的结构。 通过编码器-解码器架构,ASFM-Net 和 VRCNet 将编码的潜在特征与先验完成形状相匹配,从而产生良好的粗略完成结果。为了从部分扫描中保留观察到的几何形状以进行精细重建,MSN 和 VRCNet 通过使用最小密度采样 (MDS) 或距观察表面的最远点采样 (FPS) 绕过观察到的几何形状,并且建立跳过连接。通过嵌入体积子架构,GRNet 保留离散化输入几何体与体积 U 型连接,无需在点云空间中采样。 在最近提出的网络中,PMP-Net 从观察到最近的遮挡区域逐渐重建整个对象。 PoinTr 还专注于仅预测被遮挡的几何形状,它是通过将部分扫描代理转换为一组被遮挡代理以进一步细化重建来针对点云补全的前几个 transformer 方法之一。

  • 论文中提到的点云特征提取的研究现状

    对象点云补全中的大量工作都依赖于 PointNet 提取的特征。 PointNet 的主要优点是它能够通过最大池化实现排列不变。 然而,最大池化操作忽略了 3D 空间中的局部特征。这促使 SoftPoolNet 通过基于激活对特征向量进行排序而不是为每个元素取最大值来解决这个问题。实际上,他们能够连接特征以形成二维矩阵,以便可以应用 2D-CNN 。 除了通过池化操作构建特征表示之外,PointNet++ 对具有最远点采样 (FPS) 的点的局部子集进行采样,然后将其馈送到 PointNet。 基于 PointNet++ 的特征提取方法,SA-Net 提出将不同分辨率的特征与 KNN 分组以进行进一步处理,而 PMP-Net 使用 PointNet++ 特征来识别应该重建对象的方向。 PoinTr 还通过将输入点的位置编码添加到转换器中来解决置换不变问题而无需池化。

  • 总结

    1. 在当前的学术界,大多数基于深度学习的点云补全网络都是基于编码器-解码器架构
    2. 大多数点云补全网络基于 PointNet 或 PointNet++ 提取的特征进行补全
    3. VRCNet 被多次提及,应提高阅读优先级,改为下一篇阅读的论文

Operators

编码器将输入的点云迭代下采样为其潜在特征。然后,解码器对潜伏特征进行迭代上采样以重建物体或场景。

Down-sampling operation

  • Feature Extraction

    首先定义输入点集为 $ _{in} $

    给予可训练的向量集 $ $ 和针对每个输入点的权重集 $ $ ,其中向量集 $ $ 的个数为 $ s $ 个, $ s $ 为超参数

    将输入点集中任一点 $ f $ 移动 $ _i $ ,得到新的一个点 $ f + _i $

    在输入点集中寻找距离 $ f + _i $ 最近的点 $ $

    计算点 $ f + _i $ 与点 $ $ 的距离并记为 $ d(f, _i) $

    对于向量集 $ $ 中的每一个向量均有一个对应的权重 $ $ (并没有体积这些权重是否可以训练,不过根据推测,应该是可训练的)

    然后将点 $ f $ 的 $ s $ 个 $ d(f, _i) $ 利用如下函数聚合起来,得到一个标量

    \[ g(f) = \sum^{s}_{i=0} \sigma_i \tanh{\frac{\alpha}{d(f,\delta_i)+ \beta}} \]

    其中的 $ $ 和 $ $ 是固定的常数,根据推测应该不是可训练的,是经验值,是超参数

    最终,对于输入点集中的每一个点,若想输出 $ D_{out} $ 维特征,则需要有 $ D_{out} $ 组向量集 $ $

    最终得到整个输入点集的特征

    \[ \mathcal{F}_{out} = \left\{ [g_b(f_a) + h(f_a)]^{D_{out}}_{b=1} \right\} ^{|\mathcal{F}_{in}|}_{a=1} \]

    其中, $ |_{in}| $ 是输入点集的点数

    该方法受 ICP 算法的启发

    将 ICP 算法 和 FPS 算法作为阅读完该论文的下一个学习目标

    理解是否存在偏差,需要结合作者的代码印证

  • Neighbor pooling

    该操作是将上一步计算的每个点激活后的 $ g(f) $ 聚合起来,再进行激活

    目的是去除那些平均 $ g(f) $ 较大的点,使得点数减少至输入点数的 $ $

Up-sampling operation

当下采样进行到最后会得到仅剩一个点的特征

上采样的操作实际上是将 $ N_{up} $ 个 $ _{out} $ 的集合

Encoder-decoder architectures

论文提出了两种架构,一种架构是基于编码器-解码器,另一种架构是基于 PoinTr 派生的 Transformer

邻域池化相比最远点采样( FPS ),其得到的结果更能勾勒出输入点云的轮廓

Direct application

基于编码器-解码器的架构中

编码器部分实际上就是下采样操作,即特征提取和邻域池化

解码器部分实际上就是上采样操作

Transformers

基于 PoinTr 派生的 Transformer 的架构中

利用特征提取和邻域池化替换了编码器之前的下采样操作,该部分被称为 Points-to-Tokens

利用特征提取和上采样替换了译码器之后的上采样操作,该部分被称为 Coarse-to-Fine

总结

论文主要的创新点是提出新的下采样和上采样方法

了解到了当前点云补全网络的主流架构和常见的组件和算法

Variational Relational Point Completion Network12

论文提出了一种由两个连续的编码器-解码器子网络组成的点云补全网络模型,两个自网络分别用于“概率建模”(PMNet)和“关系增强”(RENet)。

第一个子网络 PMNet 采用双流网络结构,从不完整的点云中嵌入全局特征和潜在分布,并预测用作 3D 自适应锚点的整体骨架。

第二个子网络 RENet 努力通过学习多尺度局部点特征来增强结构关系。论文提出了点自注意内核(PSA)和点选择内核模块(PSK),以利用关系点特征,在粗略完成的条件下细化局部形状细节。

论文还创建了一个大型多视图的局部点云数据集,其中包含超过 100,000 个高质量扫描局部和完整点云。对于从 ShapeNet 中选择的每个完整 3D CAD 模型,我们从单位球体上均匀分布的摄像机视图中随机渲染 26 个部分点云,从而提高了数据多样性。该数据集可以作为实验的测试数据集。

PMNet 网络

PMNet 网络的两条路径输入分别为完整点云和不完整点云。输入为完整点云的路径被称为建设路径(construction path),输入为不完整点云的路径被称为补全路径(completion)。两条路径具有相似的结构,除了分布推理层之外,都共享其编码器和解码器的权重。

存在的问题:该子网络需要完整点云作为输入进行训练,以带动不完整点云的重建训练,但是在植株点云采样时,基于不对植株进行破坏性采样的原则,很难得到完整的被遮挡叶片的点云

RENet 网络

点自注意内核(PSA)能够自适应地聚合局部相邻点特征与相邻点中的学习关系。

点选择内核模块(PSK)能够通过利用选择性内核单元来自适应地调整它们的感受野大小。

总结

该模型主要使用了被遮挡的点云目标的完整点云进行训练,但是在实际工作中,被遮挡点云目标的完整点云可能比较难采集到

因此点云补全新模型的应尽量不依赖完整点云的输入,仅用单次扫描的所有结果作为输入

Morphing and sampling network for dense point cloud completion13

论文提出了一种分两个阶段完成部分点云的新方法。具体来说,在第一阶段,该方法预测一个完整但粗粒度的点云,其中包含一组参数化表面元素。然后,在第二阶段,它通过一种新颖的采样算法将粗粒度预测与输入点云合并。

Morphing-Based Prediction

在粗补全的过程中,编码器借鉴了 PointNet 网络结构,然后将提取的特征输入到基于变形的解码器中,以预测连续和平滑的形状。

即使用多个点构成复杂平面,然后再平均采样生成平面上的点。

Merging and Refining

在细补全过程中,利用完整的点云进行残差计算,提高补全的准确率。

GRNet: Gridding Residual Network for Dense Point Cloud Completion14

论文设计了两个新颖的可微分层,名为 Gridding 和 Gridding Reverse,以在点云和体素之间转换而不会丢失结构信息。

论文还提出了可区分的立方特征采样层来提取相邻点的特征,从而保留了上下文信息。

此外,论文设计了一种新的损失函数,即 Gridding Loss,用于计算预测点云和 ground truth 点云的 3D 网格之间的 L1 距离,这有助于恢复细节。

Gridding

在 Gridding 中,对于点云的每个点,该点所在的体素的八个顶点首先使用插值函数进行加权,该插值函数显式测量点云的几何关系。

然后,采用具有跳跃连接的 3D 卷积神经网络 (3D CNN) 来学习上下文感知和空间感知的特征,从而使网络能够补全不完整点云的缺失部分。

Gridding Reverse

在 Gridding Reverse 中,通过将每个体素替换为一个新点,将输出的 3D 网格转换为粗点云,该新点的坐标是体素的八个顶点的加权和。

下面的 Cubic Feature Sampling 通过连接点所在的体素的相应八个顶点的特征来为粗点云中的每个点提取特征。

粗点云和特征被转发到 MLP 以获得最终补全的点云。

PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers15

这篇论文主要讨论无监督的点云补全任务

创新点

  1. 论文提出了一种新的点云转换方法(与 PointNet 的 T-Net 不同),将点云表示为一组具有位置嵌入的无序点组
  2. 论文提出了一个几何感知块,它可以显式地模拟局部几何关系
  3. 论文提出了基于编码器解码器架构的 PoinTr 模型

Point Proxies

点代理其实是先对点云进行下采样得到中心点云集,然后利用具有分层下采样的轻量级 DGCNN 从输入点云中提取中心点云集的特征,然后将中心点云集的特征和位置信息结合起来

Geometry-aware Transformer Block

几何感知块使用 knn 模型来捕获点云中的几何关系。

给定查询坐标 \(p_Q\) ,我们根据键坐标 \(p_k\) 查询最近键的特征。

PCN: Point Completion Network16

这是点云补全的第一篇工作,在此之前的3D形状不全都是以voxel的形式,而点云作为常见3D初始数据,直接在点云上做形状补全具有更大意义。

PCN 的基本架构也是编码器-解码器架构

enocder

编码器采用了两层叠加的 PointNet,第二层 PointNet 的 Input 是 Point Feature 和 Global Feature 的拼接

decoder

解码器部分则分为粗生成和折叠补充两个部分,粗生成就是直接经过一个 MLP,折叠补充则是在粗生成的每个点上都用多个点构成立方体替代,然后再经过 MLP 将形状进行转换

KPI

Chamfer Distance

\[CD(S_1, S_2) = \frac{1}{\lvert S_1 \rvert} \sum_{x \in S_1}{\min_{y \in S_2} \lVert x-y \rVert _2} + \frac{1}{\lvert S_2 \rvert} \sum_{y \in S_2}{\min_{x \in S_1} \lVert y-x \rVert _2}\]

倒角距离主要是计算两个点云之间各点的平均最短距离

计算公式的前半部分是为了让输出点云更加靠近 G.T

计算公式的后半部分是为了让输出点云尽可能覆盖 G.T

Earth Mover’s Distance

\[EMD(S_1, S_2) = \min_{\phi:S_1 \rightarrow S_2} \frac{1}{\lvert S_1 \rvert} \sum_{x \in S_1}{\lVert x - \phi(x) \rVert_2}\]

推土机距离则是找到一组映射关系,然后计算对应点之间的最小平均距离

Loss 函数

\[ L(Y_{coarse}, Y_{detail}, T_{gt}) = d_1(Y_{coarse}, T_{gt}) + \alpha d_2(Y_{detail}, T_{gt})\]

Loss 函数的第一部分是粗生成的点云与下采样的 G.T 的 CD 和 EMD

Loss 函数的第二部分是最终补全点云与 G.T 的 CD

\(\alpha\) 是超参数

UNPAIRED POINT CLOUD COMPLETION ON REAL SCANS USING ADVERSARIAL TRAINING17

这篇文章首次讨论无监督的点云补全任务,很大程度上借鉴了首个点云的对抗生成网络。

论文提出了一种不成对的基于点云的补全方法,无需缺失点云和完整点云之间的显式对应即可进行训练。

在没有 G.T 的情况下,使用 plausibility scores 进行比较。

论文将给定噪声和缺失点云作为模型的输入

由于生成器借鉴了 GAN 网络,可以从噪声生成与缺失点云完全不像的完整点云,为了加以约束,还在 Loss 中添加重建损失项


  1. Chaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, and Zhen Li. 2022. Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 8101–8110. DOI:https://doi.org/10.1109/CVPR52688.2022.00794↩︎

  2. Junzhe Zhang, Daxuan Ren, Zhongang Cai, Chai Kiat Yeo, Bo Dai, and Chen Change Loy. 2022. Monocular 3D Object Reconstruction with GAN Inversion. In Computer Vision – ECCV 2022 (Lecture Notes in Computer Science), Springer Nature Switzerland, Cham, 673–689. DOI:https://doi.org/10.1007/978-3-031-19769-7_39↩︎

  3. Yu-Ting Yen, Chia-Ni Lu, Wei-Chen Chiu, and Yi-Hsuan Tsai. 2022. 3D-PL: Domain Adaptive Depth Estimation with 3D-Aware Pseudo-Labeling. In Computer Vision – ECCV 2022 (Lecture Notes in Computer Science), Springer Nature Switzerland, Cham, 710–728. DOI:https://doi.org/10.1007/978-3-031-19812-0_41↩︎

  4. Zhiqiang Yan, Kun Wang, Xiang Li, Zhenyu Zhang, Jun Li, and Jian Yang. 2022. RigNet: Repetitive Image Guided Network for Depth Completion. In Computer Vision – ECCV 2022 (Lecture Notes in Computer Science), Springer Nature Switzerland, Cham, 214–230. DOI:https://doi.org/10.1007/978-3-031-19812-0_13↩︎

  5. Zhiqiang Yan, Xiang Li, Kun Wang, Zhenyu Zhang, Jun Li, and Jian Yang. 2022. Multi-modal Masked Pre-training for Monocular Panoramic Depth Completion. In Computer Vision – ECCV 2022 (Lecture Notes in Computer Science), Springer Nature Switzerland, Cham, 378–395. DOI:https://doi.org/10.1007/978-3-031-19769-7_22↩︎

  6. Xingguang Yan, Liqiang Lin, Niloy J. Mitra, Dani Lischinski, Daniel Cohen-Or, and Hui Huang. 2022. ShapeFormer: Transformer-based Shape Completion via Sparse Representation. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 6229–6239. DOI:https://doi.org/10.1109/CVPR52688.2022.00614↩︎

  7. Ryuki Yamamoto, Hidekata Hontani, Akira Imakura, and Tatsuya Yokota. 2022. Fast Algorithm for Low-rank Tensor Completion in Delay-embedded Space. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 2048–2056. DOI:https://doi.org/10.1109/CVPR52688.2022.00210↩︎

  8. Xiaopei Wu, Liang Peng, Honghui Yang, Liang Xie, Chenxi Huang, Chengqi Deng, Haifeng Liu, and Deng Cai. 2022. Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 5408–5417. DOI:https://doi.org/10.1109/CVPR52688.2022.00534↩︎

  9. Xin Wen, Junsheng Zhou, Yu-Shen Liu, Hua Su, Zhen Dong, and Zhizhong Han. 2022. 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 3793–3803. DOI:https://doi.org/10.1109/CVPR52688.2022.00378↩︎

  10. Liang Pan, Xinyi Chen, Zhongang Cai, Junzhe Zhang, Haiyu Zhao, Shuai Yi, and Ziwei Liu. 2021. Variational Relational Point Completion Network. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Nashville, TN, USA, 8520–8529. DOI:https://doi.org/10.1109/CVPR46437.2021.00842↩︎

  11. Yida Wang, David Joseph Tan, Nassir Navab, and Federico Tombari. 2022. Learning Local Displacements for Point Cloud Completion. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, New Orleans, LA, USA, 1558–1567. DOI:https://doi.org/10.1109/CVPR52688.2022.00162↩︎

  12. Liang Pan, Xinyi Chen, Zhongang Cai, Junzhe Zhang, Haiyu Zhao, Shuai Yi, and Ziwei Liu. 2021. Variational Relational Point Completion Network. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Nashville, TN, USA, 8520–8529. DOI:https://doi.org/10.1109/CVPR46437.2021.00842↩︎

  13. Minghua Liu, Lu Sheng, Sheng Yang, Jing Shao, and Shi-Min Hu. 2020. Morphing and Sampling Network for Dense Point Cloud Completion. AAAI 34, 07 (April 2020), 11596–11603. DOI:https://doi.org/10.1609/aaai.v34i07.6827↩︎

  14. Haozhe Xie, Hongxun Yao, Shangchen Zhou, Jiageng Mao, Shengping Zhang, and Wenxiu Sun. 2020. GRNet: Gridding Residual Network for Dense Point Cloud Completion. In Computer Vision – ECCV 2020 (Lecture Notes in Computer Science), Springer International Publishing, Cham, 365–381. DOI:https://doi.org/10.1007/978-3-030-58545-7_21↩︎

  15. Xumin Yu, Yongming Rao, Ziyi Wang, Zuyan Liu, Jiwen Lu, and Jie Zhou. 2021. PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Montreal, QC, Canada, 12478–12487. DOI:https://doi.org/10.1109/ICCV48922.2021.01227↩︎

  16. Wentao Yuan, Tejas Khot, David Held, Christoph Mertz, and Martial Hebert. 2018. PCN: Point Completion Network. In 2018 International Conference on 3D Vision (3DV), 728–737. DOI:https://doi.org/10.1109/3DV.2018.00088↩︎

  17. Xuelin Chen, Baoquan Chen, and Niloy J. Mitra. 2020. Unpaired Point Cloud Completion on Real Scans using Adversarial Training. DOI:https://doi.org/10.48550/arXiv.1904.00069↩︎

正在加载今日诗词....