ag真人官网入口南加州大学 phd 王薇月:深度学习在点云分割中的应用 分享总结

  这是我们实验室的信息,如果大家感兴趣的话,可以跟我的导师联系,我们主要做 3D vison 和 computer graphics 方面上的研究◆■★■。

  我们刚才讲过了 siamese network,就是说两个图片如果是一类的话★★■,就让它们在 feature specs 里面的距离很小。如果它们不是一类的话,就让它们距离比较大,所以我们通过采用这种方式■◆★★★■,借用这个思想,来训练我们的 similarity matrix,如果两个点属于不同类的话,我们就让它们的距离很大■★◆◆■。如果它们是相同类的话,我们就让它们在 feature specs 里面的距离比较小,我们同样得使用的是 Hingle loss,两个点都是椅子 1 的话,我们就 minimize 这个 term(下图右下公式)■★◆■■,在这里介绍一个 double hinge loss,也就是说两个点,一个椅子 1◆■■◆◆★、一个椅子 2 的话,我们让它们的 margin 比 K1 大。如果两个点是一个桌子、一个椅子的话,我们就让它们的距离比 K2 大◆◆★★,在训练的时候 K1 要比 K2 小一点,在实验中我们发现用这种 double hinge loss 的方式◆■★★,会让结果更好一点,比 K1=K2 的时候结果好一点,这样我们就训练出了 similarity matrix■■。

  同样是在 stanford indoor 3D data 上面做的,不同的颜色就表示不同的类别★★◆■。图(中)是 predict 的结果★◆,图(右)是 ground truth,我们得到的结果还是非常不错的。

  刚才我们也说了,因为 pointnet 是有 KNN 或者是 ball query 的方法,会让它们的速度下降很多,我们在这里进行速度和 memory 的比较,像我们的 rsnet 是比 pointnet++速度要快很多。这里(上图)显示的是,以 pointnet 为一个 unit,先与 pointnet 比较,再与其他方法进行速度上的比较■★■◆。这两篇工作的代码都已经 release 了,大家可以参看我们的 github。

  在介绍实验结果之前ag真人官网入口,我们先简单介绍一种非常简单的均类方法,就是在所有的点里面选一些种子■★,然后进行 BFS 去 search 到最近的零点,然后去寻找跟它最近的相同的 label,如果它们有一个 threshold,如果大于这个 threshold 就停止■■◆,如果小于这个 threshold,就继续寻找◆◆■★■★。相同的 label group 起来,就形成了一个新的 instance,就是我们的一个 group,然后通过跟这个方法进行比较,因为在 literature 上面进行点云实例分割的文章比较少,我们就用这种比较简单的方法进行比较★◆。

  近期■◆★◆★,在 GAIR 大讲堂上,南加州大学计算机系在读博士王薇月分享了其关于点云分割的最新工作■■★◆◆■。

  斯坦福他们组同样的人,去年在 NIPS 上提出了 pointnet++,他们是用了 farthest point sample 和 query KNN 来提取 local 的信息,也就是说对每个点,去找它的 neighborhood★◆★◆,然后去 sample 一些点■◆★■,这样以此类推★■■★,这样去进行 local 信息的获取。但是我们也知道像 KNN 的话,它的复杂度是 O(KN) 的,而且它需要每个点进行 query,复杂度比较高,我们就提出了如下的方法去更好地去做 local dependence 的事情。

  之后,像 R-CNN、faster R-CNN 它们有一些 post processing,它们会多预测出来一些 region proposal,然后就会用 threshold 的方法去 prove 这些结果■★■■★,我们也同样用一个比较简单的贪婪法去 prove 这个结果,效果也是非常不错的,对于网络预测出来的一些 group proposal,对于每一个,先 initialize 一个大的 group set,如果这个 group proposal 是没有出现在这个 group set 里面,我们就把它放进去■■★★,如果出现了的话,我们就进行下一个■★★★◆★,这样就做了一个 post processing■■◆★,就得到了最终的结果,下面是一些实验结果。

  王薇月,南加州大学计算机系在读博士,导师是 Ulrich Neumann 教授,主要研究方向为计算机视觉■◆■,三维视觉等★■★■◆★。其研究工作曾在 CVPR、ICCV、ECCV 等发表。公开课回放链接:

  下面来介绍我们组的另一个工作,第一作者是我的朋友黄乾桂,我们的这个工作是做点云的 semantic segmentation◆■★★★◆,刚才我已经介绍了 semantic segmentation,就是给一个 input 的点云,给每一个桌子★★★◆■、椅子的 label。

  A:切割精度不同会对结果造成不同影响,我们在实验部分的 ablation study 里面对不同精度进行了实验。

  雷锋网 AI 科技评论按:随着激光雷达,RGBD 相机等 3D 传感器在机器人■■,无人驾驶领域的广泛应用,深度学习在三维点云数据的研究在近两年取得了广泛关注。点云分割、识别、检测成为学术界、工业界的热门话题之一。

  大家好,我是来自南加州大学的在读 phd 王薇月■◆★★★■,我的主要研究方向是 computer vision(主要侧重于 3D 的 vision),今天我们介绍的是深度学习在点云分割中的应用。我们知道三维物体和场景有很多种的表达方式,比如 3D 的 mesh,还有 Volumetric data,distance field 等等■★★■◆◆。点云是比较直接,而且很简单的一种表示方式★◆◆■★。首先介绍一下什么是点云(Pinot Cloud),点云是很多三维的点的坐标的集合★■,这整个集合可以反映场景或者物体的几何信息,在计算机里面,它就是一个 N*3 维的一个矩阵,N 代表的是点的个数,三维就是 x★◆■★■■、y★■、z 的坐标(当然也可以是 N*6,即 x、y、zag真人官网入口、r◆◆■■◆◆、g、b),随着激光★★◆◆■■、雷达和深度摄像头等硬件设备的发展,我们就能更好地捕捉 3D 的场景,处理 3D 信息也是现在的一个非常关注、非常火的话题。采集点云的主要方式就是激光雷达、深度摄像头(深度摄像头采集来的 depth map 可以通过照相机的参数计算出 3D 的点云)◆◆■。我们今天的讲课专注点云的分割。

  A★★■★:curtain 主要是数据比较少而且很多都连着墙或窗,所以不太容易被识别◆■◆★★★。

  seg-cluster 有不同的 threshold,hreshold 变大的时候◆■★★◆,也就是说两个相同 label 的物体更容易连接在一起,如果 threshold 变小的时候就更不容易连接在一起,threshold 变小的时候,结果就如上图(右部)所示,将它分成了两个部分,但是在 SGPN 中就会避免这个问题,通过 similarity matrix 的方法,建立了上面和下面的联系。

  所谓点云的分割◆■■◆★◆,今天我想介绍的有两层,一层是语义分割和实例分割,所谓语义分割就是给每个点 assign 一个 label,比如说这个点是桌子还是椅子■★◆◆★。实例分割就是在 assign 语义分割的同时,把每个不同的物体给分割出来,比如一个房间里有很多椅子,每个点标 label 成椅子 1、椅子 2。实例分割与物体检测,即 object detection 是紧密相连的,object detection◆◆★◆:给一个场景,把你想要的物体检测出来并给一个 bounding box。实例分割是比物体检测要稍微难一点的问题,因为它需要给每个点都要标出来。今天主要介绍在最新的 CVPR 上的两个工作,一个是对点云进行实例分割的网络:similarity group proposal network★★■■◆,还有一个是对点云进行语义分割的网络,recurrent slice network■◆★■。

  这个工作主要是针对,使用深度学习的方法去做点云的实例分割的问题,据我们所知◆■★★■,应该是第一个用深度学习去做这件事情的。