近日, 中科院合肥研究院智能所先进制造技术研究中心王红强研究员团队提出了一种新型目标检测人工智能框架,为快速高精度实时在线目标识别提供了新的解决方案。相关工作发表在计算机科学及工程技术领域顶刊Expert Systems With Applications (中科院一区,IF8.66)上。
近年来,深度学习理论驱动了人工智能技术飞跃式发展,基于深度学习的目标检测技术在许多产业应用中获得巨大的成功,其中快速实时目标检测是人工智能技术产业应用的重要需求。一直以来各项研究主要依赖研发轻量型神经网络模型(或边缘计算等)提高目标检测速度,但效率与精度往往不能兼顾,成为当前目标检测前沿研究与产业应用的重要挑战之一。此外,由于深度学习自身的特性, 检测精度再提升往往伴随着巨大的计算代价和时间开销, 造成在许多场景下部署和再升级瓶颈。
科研团队通过研究分析发现,基于深度学习的目标检测技术主要缺陷之一在于重复的特征提取与融合深度网络结构,产生不必要的计算代价。为此,科研人员提出一种多输入单输出目标识别框架(MiSo),区别于传统的多输入多输出模式,具有降低模型复杂度与推理时间开销的巨大潜力。同时,在此框架下,科研团队基于早期提出的eRF检测理论,设计了感受野调节机制、残差注意力自学习机制、基于eRF动态平衡抽样策略三种新的学习机制,实现了更加简洁高效地提取热点特征信息。在标准数据集上以同样29FPS的速率下获得高出现有基准2.6个百分点,验证了该模型的优越性。该方法为目标检测前沿研究与产业应用提供了新的思路。
王琦进博士生为文章的第一作者,王红强研究员为通讯作者。该研究工作得到了国家自然科学基金项目、中科院设备开发、安徽省重点研究与开发计划以及横向企业委托开发等科研项目的支持。
文章链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417422019467
图1:网络结构框架
图2:目标检测示例
图3:检测性能比较