电子学院在弱监督视觉建模研究领域取得进展

  • Published: 2019-06-12
  • 102457

视觉目标检测是计算机视觉领域非常重要又极具挑战性的问题。视觉目标检测通常是一个多任务学习问题,模型需要检测出图片或者视频中的物体,同时还要对物体进行分类。视觉目标检测是很多工业应用的基础之一,比如自动驾驶汽车,车路协同系统等。全监督意义下的视觉目标检测,有bounding-box级别的标注信息作为监督信息,训练目标检测模型。全监督目标检测任务面临很多挑战,比如不准确的标注框,标注框的歧义性等。而弱监督视觉目标检测的监督信息只有图像级别的标注信息,指示图片中是否含有某一类物体。从而面临着新的挑战。

中国科学院大学电子学院模式识别与智能系统开发实验室长期从事视觉目标检测的研究。实验室博士生万方与叶齐祥教授、韩振军副教授、焦建彬教授合作提出了一种最小熵隐变量模型MELMMin-Entropy Latent Model)用于弱监督目标检测。该模型可以对物体定位的结果随机性进行度量,进而实现弱监督环境下的准确定位,相关工作被人工智能领域顶级期刊T-PAMI所接收。后续研究中,万方在多示例学习中引入了连续优化机制,从而减轻模型训练优化过程中的非凸性,避免训练陷入局部极小值点,从而学习稳定的语义极值区域 (SSER),更加准确地定位物体,相关工作被IEEE CVPR 2019Oral形式接受。