resource:github上备份的包括ipad标注的pdf版本。
作者是Stanford的Charles R. Qi, Hao Su, Kaichun Mo和Leonidas J. Guibas。L J. G组做了相当多的3D CV方面的工作,而且出了Hao Su、Li Yi、He Wang等一大批学术新星,堪称3D CV界的黄埔军校。
Summary:一篇很不错的经典文章,提出了直接feed on point cloud的3D Backbone PointNet,该工作到目前为止已有12K+引用量,可以算是3D领域的基石文章了;这个backbone直接将点云作为输入,输出分类/分割label;本身非常简单,基本上由MLP拼成,靠类似于注意力机制的模块在线计算"增强矩阵"来实现transformation-invariant特性、利用maxpooling来支持inordered input;可以面向3D分类、分割、场景分割任务。文章贡献主要有:
Key words:
Rating: 5.0/5.0 很不错,经典文章,读起来非常舒服;基本上细节都能get到。
Comprehension: 4.0/5.0 读起来比较简单,除了两个理论证明的bonus之外基本上都看懂了。
一张图总结全文:
* MLP(*, **)的意思是每个点的维度经过一层MLP后变成*、**(这里是两层);
* `shared`意思是对点云中的每个点都apply同一个MLP。
* T-Net是个mini版的PointNet,根据输入feature预测一个变换矩阵,再把这个矩阵乘回当前的feature(类似于注意力机制);
* 分割网络是在分类网络的基础上追加一部分,有local & global feature的融合(这里是per-point地把局部和全局特征concate在一起了);
总结了点云的一些性质和相应的对NN的要求:
网络总体架构见Summary部分。作者指出三个关键设计包括:(1)用Maxpooling层作为一种对称函数来聚合特征;(2)在3D Segmentation中利用局部与全局信息;(3)两个joint alignment networks,在输入(raw point)和特征两个层级实现transformation invariant性质(图中的T-Net):
给了一些理论分析没细看,大体说明(1)点云数据的扰动不会对预测结果产生较大影响;(2)模型的效果受到MaxPool后特征的维度限制;(3)模型可以学着从点云中总结一些关键点。
在3D分类、3D物体部分分割、3D场景分割三个任务上验证了有效性。
可视化 - 可视化了网络预测的关键点和upper-bound shape: