您的位置:
首页
>
中文期刊论文
>
详情页
基于CNN与Transformer混合结构的多语言图像标题生成研究
- 作 者:
-
张大任;
艾山·吾买尔;
宜年;
刘婉月;
韩越;
- 作者机构:
-
新疆大学信息科学与工程学院;
- 关键词:
-
多语言;
Transformer;
图像标题生成;
深度学习;
联合训练;
- 期刊名称:
- 东北师大学报(自然科学版)
- i s s n:
- 1000-1832
- 年卷期:
-
2022 年
002 期
- 页 码:
- 68-75
- 摘 要:
-
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...