基于视觉语言提示学习的少样本图像分类方法
- 作者机构:
- 北京信息科技大学;
- 关键词:
- 少样本学习; 图像分类; 提示学习; 预训练模型; 视觉语言模型;
- 期刊名称:
- 北京邮电大学学报
- i s s n:
- 1007-5321
- 年卷期:
- 2024 年 002 期
- 页 码:
- 11-17
- 摘 要:
- 为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。
相关作者
相关机构
