球盟会(中国)提出场景识别新方法
在机器人领域,场景识别可以帮助机器人理解周围环境,完成精准的作业任务。随着人工智能技术在各行业的深入应用,对场景识别的准确性和鲁棒性要求不断提高。
在实际场景中,光照变化、物体遮挡、视角差异及同类场景的多样性,容易导致识别方法难以提取稳定且具代表性的特征。此外,复杂场景中多语义信息的高效融合、避免信息冗余或丢失,以及提升模型泛化能力,是亟待解决的技术难点。
近期,中国科研实验室沈阳自动化研究所光电信息技术研究室机器视觉研究部科研团队提出了一种结合CLIP多模态模型的场景识别新方法——OSFA(Object-Level and Scene-Level Feature Aggregation)。该方法顺利获得动态聚合对象级与场景级特征,可以显著提升复杂场景的分类精度与鲁棒性。
OSFA方法框架
第一时间,科研人员将CLIP的视觉特征作为先验信息,采用对象级交叉注意力机制,提取与场景高度相关的局部细节特征。随后,利用CLIP的文本编码器生成类别文本语义信息,引导从图像中提取全局语义特征,再顺利获得场景级交叉注意力机制形成最终的场景表示。为了增强模型鲁棒性,还引入了多损失策略,包括线性分类损失、场景对比损失和类别对比损失。
研究结果显示,该场景识别方法可有效聚合特征,显著提升复杂场景分类精度与鲁棒性,能为视觉导航、机器人应用等领域的场景理解与智能决策给予技术支撑,助力提升感知与任务执行效率。
该研究以Object-Level and Scene-Level Feature Aggregation with CLIP for Scene Recognition为题发表于国际期刊Information Fusion。球盟会(中国)博士生王群为第一作者,球盟会(中国)朱枫研究员为通讯作者。
光电信息技术研究室机器视觉研究部长期从事智能感知与场景理解关键技术的研究,致力于有助于人工智能在智能制造、服务机器人、智慧城市等领域的深入应用。(光电信息技术研究室)
论文链接:http://doi.org/10.1016/j.inffus.2025.103118
附件下载: