您的位置:
首页
>
中文期刊论文
>
详情页
视觉基础模型研究现状与发展趋势
- 作 者:
-
张燚钧;
张润清;
周华健;
齐骥;
余肇飞;
黄铁军;
- 作者机构:
-
中移(苏州)软件技术有限公司平台产品部;
北京大学计算机学院;
- 关键词:
-
计算机视觉(CV);
自监督学习;
多任务学习;
预训练模型;
基础模型;
- 期刊名称:
- 中国图象图形学报
- i s s n:
- 1006-8961
- 年卷期:
-
2025 年
30 卷
001 期
- 页 码:
- 1-24
- 摘 要:
-
在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自监督学习领域的应用,为解决这些挑战提供了新的解决方案。这些模型通常通过大规模数据预训练,在处理复杂视觉场景中展现出强大的泛化能力,其被广泛称为视觉基础模型。本文深入探讨了视觉基础模型的研究现状与未来发展趋势,并重点关注该领域的关键技术进展及其对未来计算机视觉的潜在影响。首先回顾和梳理了视觉基础模型的背景与发展历程,然后介绍了在这一发展历程中出现的关键模型基础结构,介绍并分析了构建视觉基础模型所采用的各类预训练任务的设计思路,并根据其特性对现有的视觉基础模型进行分类。同时,对不同类型视觉基础模型中的代表性工作进行了介绍,并整理了目前可用于视觉基础模型预训练的数据集。最后,对视觉基础模型的研究现状进行总结和思考,提出了目前存在的一些挑战,并展望未来可能的研究方向。
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...