您当前所在位置: 首页 > 科技 > 加盟依图科技后,颜水成首篇顶会论文提出“多人体姿态检测SPM

加盟依图科技后,颜水成首篇顶会论文提出“多人体姿态检测SPM

作者:匿名 更新:2019-11-28 21:03:41

天龙寺的梨树

Qbitai

颜水城的研究团队依然强大。

从360年到易图,颜水城仍然保持着高质量的学术产出。

最近提出的单级高效人体姿态检测模型spm就是最好的例子,本文包含在iccv中。

本文从一个全新的角度来研究单个图像中的多人姿态检测问题。通过新提出的结构化姿态表示,将多人姿态检测问题从以前的两阶段方法浓缩到单阶段检测,大大提高了人体姿态检测的效率和准确性。

让我们先看看这种新方法的检测结果。对于单个图像,可以有效地检测人体和其中包含的每个关节的位置信息。

甚至可以检测面部关键点的位置:

三维检测不再是这种情况:

在确保准确性和性能的同时,这种高效的方法达到了近20帧的速度,大大超过了以前的算法。

结构化姿态表示

这种方法的关键在于颜水成团队提出了一种新的姿态表达方法SPR(结构化姿态表示),它统一了人体实例位置处关节的姿态,简化了人体检测和关节定位的过程,从而大大提高了多人姿态估计的处理效率。

这种新的表示方法以结构化和分层的方式在图像中呈现人体和关节姿态:

为了充分理解spr作为一种新的表达方式的优势,我们需要回顾以前的姿态检测过程。

多人姿态检测的任务是估计给定图像中每个人体实例的位置及其关节的姿态。

目前,多人姿态估计将人体位置检测和联合姿态检测作为任务的两个阶段。主要策略主要是自下而上和自上而下的方法。

自上而下的方法可以简单地理解为先检测人,然后分别检测每个人的关节姿势。

这种方法首先使用人体检测器来定位和分离图像中的每个人体实例,然后使用单姿态估计器来检测和定位每个实例的联合姿态。

自下而上的方法是一种从关节开始到人体结束的思维方式。这种方法首先使用关节估计器来寻找图像中的所有关节位置和姿态,然后估计图像中的人体示例,并通过解决图像分割问题将相应的关节给予相应的人。

无论使用哪种方法,都需要两种测试,一种用于检测人的位置,另一种用于检测关节的位置。两个网络需要处理同一个图像两次或更多次,不包括数据交换和后处理造成的延迟。

如果两个阶段的检测任务能够统一到一个框架中,一个网络能够一次完成推理,那么计算效率会有很大的提高吗?!

前一种方法需要两个阶段的原因主要是因为关节姿态的表示需要基于人体实例的位置。颜水成团队从这个角度探索了关节位置和姿势spr的新表达。

为了在单个阶段实现多人姿态估计,需要统一表达人体位置和关节位置。春天提出了一个非常有启发性的观点。除了表示人体实例位置的常规关节位置之外,它还引入了一个辅助关键位置——参考关节。

这种独特的表达方式是解决问题的关键。

每个人体关键点可以表示为基于该参考关节的偏移。在这种表达式下,将检测问题转化为预测每个人体对应的参考关节以及每个关节相对于参考关节的偏移,两阶段问题可以通过统一的关节表达式简化为单阶段问题:

这是需要估计的数额。只需要估计每个人体基准的关键位置和地图中每个关键点的相对偏移量,就可以实现多人姿态估计。应该指出的是,只有相应关节的偏移加上参考姿态可以被转换成第一个人的j关节的先前姿态表达:

这种方法似乎很好地整合了人体位置和关节位置。然而,人们正在移动。一些关节偏离中心参考关节太多。很难直接从图像中返回这些关节的偏移,并且误差也很大。我该怎么办?

看看你的手,从肩到肘,从肘到腕,一层接一层。手腕似乎更靠近肘部吗?

这是思维方式!根据人体的运动结构,关节位移分为四个层次,相对于参考关节的位移转化为相对于上关节的位移。参考关节,即人体位于一楼。躯干关节,包括颈部、肩部、臀部等。被归入二楼。头、肘、膝在第三层,最后一个手腕和脚踝在最后一层。

人体每个关节的偏移被重新表示为与相邻水平面上关节的相对偏移(增加了波浪线的新位移)。

这样,手腕到身体中心的偏移被巧妙地分解为手到肘、肘到肩、肩到中心的短距离位移叠加,降低了偏移估计的难度,充分利用了躯干结构的结构信息。

Spm飞起来了

有了这种新的统一和结构化表示,新的方法出现了。

利用这种统一表示方法,单阶段推理模型的任务变得非常清楚,并且从图像中估计每个人体实例的关节集,包括参考关节的偏移和每个关节相对于参考关节的相对参考关节。

这个名为spm的模型使用沙漏网络作为主干。该网络模型由多个沙漏模块叠加而成,每个模块利用u-net结构提取和解码特征进行联合定位。为了充分重用低层空间信息来优化高层语义信息,spm增加了多个跳转层来实现跨层信息流。

spm在原有沙漏模型的基础上,不仅使用置信回归分支来预测每个人体的参考位置,还添加了偏移回归分支来预测每个人体关节的偏移图。通过这种方式,spm可以获得向前传球中多人姿态的估计结果。

因此,损失函数包括两个部分:参考关节损失和每个关节偏移的预测损失:

实验结果

在mpii、pascal-person-part、mscoco和cmu全景图等几个人体姿态数据集上验证了该模型的有效性。其中,前三个是二维图像数据集,最后一个是标有三维空间姿态的数据集。

研究人员首先比较了mpii数据集上各种算法的性能。结果表明,基于新表示方法的spm模型可以达到58ms的速度,比前两阶段方法中最快的自下而上方法快5倍左右,地图值达到78.5%,在效率和精度上都超过了前一种方法。

此外,研究人员还发现,用分级spr代替spr可以进一步改善模型的映射,特别是对于远离身体中心的手腕和脚踝,映射改善了近4%。结果清楚地表明,关节的分层表示可以显著提高多人姿态估计任务的性能。

这种方法也可以很容易地扩展到三维情况。cmu全景数据集上的实验表明,spm对姿态变化、遮挡、尺度和深度变化具有鲁棒性。

它改变了以前只能定性评估三维姿态数据的情况,并在该数据集上达到77.8的3d-pck。

颜水城团队

这种单阶段多人姿态检测模型在精度和速度上取得了巨大突破,使得高速多人姿态检测成为可能,并为三维姿态检测问题提供了可能的解决方案。

这篇论文来自新加坡国立大学和欧洲理工大学,这也是颜水成上任后发表的第一篇会议论文。

聂学成(Nie Xuecheng),颜水成、冯嘉实联合指导的博士生,目前在新加坡国立大学学习计算机视觉,在顶级会议的顶级期刊上发表了许多优秀论文。

张剑峰,武汉大学毕业生,目前在冯嘉实的指导下,与聂学成紧密合作,担任新加坡国立大学的研究助理。

颜水成是视野中的杰出科学家。作为新加坡国立大学视觉团队的领导者,他为学术界贡献了大量的研究成果,现为易图科技首席技术官。

冯家世先生是颜水成先生的博士生。他的研究兴趣包括机器学习、深度学习、大规模机器学习及其在视觉、数据分析和人工智能中的应用。他目前领导新加坡国立大学学习与视觉实验室研究小组的研究工作。

论文门户:

https://arxiv.org/pdf/1908.09220.pdf

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

ag 广西快3开奖结果 manbet

热门推荐

最新排行

© Copyright 2018-2019 fwd2all.com 徐庄资讯 Inc. All Rights Reserved.