近日,中国科学院合肥物质院智能所先进制造研究中心王红强研究员团队在跨模态机器视觉领域取得重要进展,提出了一种基于非对称孪生Transformer的全局-局部对齐注意力模型(AST-GLAA),显著提升了可见光-X光跨模态包裹重识别任务的性能。该研究成果被信息安全领域顶级期刊《IEEE信息取证与安全汇刊》正式接收。
可见光-X光跨模态包裹重识别是安检领域的核心技术,其难点在于两种模态图像存在显著的像素级差异,导致传统方法难以提取鲁棒的跨模态不变特征。研究团队创新性地将非对称设计思想引入孪生Transformer架构,提出跨模态非对称孪生Transformer结构,通过在一侧分支嵌入LayerNorm层和模态感知编码,有效增强了模型对跨模态不变特征的提取能力。同时,团队设计了全局-局部跨模态对齐注意力模块,通过建模全局与局部特征的交互关系,在提升细粒度特征表征的同时,解决了跨模态图像空间错位问题。
该研究工作首次将Transformer架构引入跨模态包裹重识别任务,突破了现有方法依赖对称卷积网络的局限。实验表明,该模型在跨模态包裹重识别专用数据集上的关键指标较现有最优方法提升显著,为安检智能化提供了可靠技术支撑。
论文第一作者为博士生吴勇敢,通讯作者为王红强研究员。研究获得国家自然科学基金、中国科学院装备研制等项目的支持。
据悉,《IEEE信息取证与安全汇刊》(IEEE Transactions on Information Forensics and Security ,TIFS)是信息安全领域最具影响力的国际期刊之一(中国科学院一区,CCF-A类),重点关注多媒体安全、生物特征识别、数据取证等方向的理论创新与产业应用。
文章链接:https://ieeexplore.ieee.org/document/11095748
可见光-X光跨模态包裹重识别任务及核心思路示意图
基于非对称孪生Transformer的全局-局部对齐注意力模型概览