您的位置: 首页 > 中文期刊论文 > 详情页

基于CNN与Transformer混合结构的多语言图像标题生成研究

作   者:
张大任艾山·吾买尔宜年刘婉月韩越
作者机构:
新疆大学信息科学与工程学院
关键词:
多语言Transformer图像标题生成深度学习联合训练
期刊名称:
东北师大学报(自然科学版)
i s s n:
1000-1832
年卷期:
2022 年 002 期
页   码:
68-75
摘   要:
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性.
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充