您的位置:
首页
>
中文期刊论文
>
详情页
基于跨媒体解纠缠表示学习的风格化图像描述生成
- 作 者:
-
蔺泽浩;
李国趸;
曾祥极;
邓悦;
张寅;
庄越挺;
- 作者机构:
-
浙江大学计算机科学与技术学院;
- 关键词:
-
机器学习;
跨媒体;
解纠缠表示学习;
风格化图像描述生成;
自然语言生成;
- 期刊名称:
- 计算机学报
- i s s n:
- 0254-4164
- 年卷期:
-
2022 年
012 期
- 页 码:
- 摘 要:
-
风格化图像描述生成的文本不仅被要求在语义上与给定的图像一致,而且还要与给定的语言风格保持一致.随着神经网络在计算机视觉和自然语言生成领域的技术发展,有关这个主题的最新研究取得了显著进步.但是,神经网络模型作为一种黑盒系统,人类仍然很难理解其隐层空间中参数所代表的风格、事实及它们之间的关系.为了提高对隐层空间中包含的事实内容和语言风格属性的理解以及增强对两者的控制能力,提高神经网络的可控性和可解释性,本文提出了一种使用解纠缠技术的新型风格化图像描述生成模型Disentangled Stylized Image Caption(DSIC).该模型分别从图像和描述文本中非对齐地学习解纠缠表示,具体使用了两个解纠缠表示学习模块——D-Images和D-Captions来分别学习图像和图像描述中解纠缠的事实信息和风格信息.在推理阶段,DSIC模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示,并通过直接控制隐层向量来生成目标风格的图像描述.本文在SentiCap数据集和FlickrStyle10K数据集上进行了相关实验.解纠缠表示学习的实验结果证明了模型解纠缠的有效性,而风格化图像描述生成实验结果则证明了聚合的跨媒体解纠缠表示可以带来更好的风格化图像描述生成性能,相对于对比的风格化图像描述生成模型,本文方法在多个指标上的性能提升了17%至86%.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...