您的位置:
首页
>
中文期刊论文
>
详情页
视觉Transformer(ViT)发展综述
- 作 者:
-
李玉洁;
马子航;
王艺甫;
王星河;
谭本英;
- 作者机构:
-
桂林电子科技大学人工智能学院;
- 关键词:
-
计算机视觉;
模式识别;
深度学习;
Vision Transformer(ViT);
自注意力;
- 期刊名称:
- 计算机科学
- i s s n:
- 1002-137X
- 年卷期:
-
2025 年
52 卷
001 期
- 页 码:
- 194-209
- 摘 要:
-
视觉Transformer(Vision Transformer, ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...