基于CNN与Transformer混合结构的多语言图像标题生成研究-中文期刊论文-农业学术服务平台

您的位置：首页 > 中文期刊论文 > 详情页

基于CNN与Transformer混合结构的多语言图像标题生成研究

作者：: 张大任; 艾山·吾买尔; 宜年; 刘婉月; 韩越;

作者机构：: 新疆大学信息科学与工程学院;

关键词：: 多语言; Transformer; 图像标题生成; 深度学习; 联合训练;

期刊名称：: 东北师大学报(自然科学版)

i s s n：: 1000-1832

年卷期：: 2022 年 002 期

页码：: 68-75

摘要：: 针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题，提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入，然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言，训练时将不同语言的损失和作为优化目标，最终实现不同语言间的联合训练.以Flickr8K数据集为基础，拓展了包含6种语言的多语言图像标题生成数据集，并在该数据集上进行了验证.结果表明：该模型可以同时生成多种语言的图像标题，且生成质量比相同规模的单语言模型质量高，并验证了该方法的有效性.

相关作者

载入中，请稍后...

相关机构

应用推荐

置顶

我的订单

意见反馈

意见箱

匿名：登录

您的联系邮箱：

您的联系电话：

标题：

内容：

个人用户登录

快捷注册

第三方账号登录

使用数字科研平台帐号登录

使用知识服务总平台帐号登录

忘记密码

用户名^*

新密码^*

确认密码^*

手机号^*

个人用户注册

用户名^*

必须为有效邮箱

密码^*

6~16位数字与字母组合

确认密码^*

6~16位数字与字母组合

手机号^*

请输入正确的手机号码

信息补充