首页> 中文期刊> 《智能计算机与应用》 >基于视觉Transformer的多级特征聚合图像语义分割方法

基于视觉Transformer的多级特征聚合图像语义分割方法

         

摘要

针对传统卷积神经网络在图像语义分割领域进行特征提取时未能充分利用上下文信息的问题,提出一种基于视觉Transformer的多级特征聚合图像语义分割方法。首先,将输入图像分割成一系列切片进行线性投影,并加入可学习的位置嵌入,获得编码输入序列;通过一个基于视觉Transformer的编码器,将图像编码为一系列补丁,从而在整个网络中建模全局上下文。Transformer编码器可与一个简单的线性解码器组合来获得优秀的效果,通过多级特征聚合解码器能进一步提升性能。大量实验表明,所提出的方法能够有效建模全局上下文信息,以进行图像特征提取。实验在3个公开数据集(ADE20K(49.97%mIoU)、Pascal Context(55.43%mIoU)、Cityscapes(82.03%mIoU))的语义分割任务中达到了良好的分割精度。设计的消融实验结果也充分证明了所提方法的有效性,能够更好地运用在高精度的图像语义分割领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号