您的位置: 首页 > 中文期刊论文 > 详情页

基于图文交互和深层特征融合的多模态讽刺检测方法

作   者:
王素格李鹏帅李旸
作者机构:
山西大学计算机与信息技术学院
关键词:
注意力机制Long-CLIP模型深层特征表示图文融合
期刊名称:
山西大学学报(自然科学版)
i s s n:
0253-2395
年卷期:
2025 年 48 卷 002 期
页   码:
391-399
摘   要:
多模态讽刺检测是在多模态场景下识别用户的讽刺言语。现有的多模态讽刺识别方法大多对编码之后的特征直接融合,并未关注图像和文本的深层特征以及图像和文本之间的交互。针对上述问题,本文提出基于图文交互和深层特征融合的多模态讽刺检测框架。首先,使用具有长文本能力的对比语言-图像预训练模型(Contrastive Language-Image Pre-training model with Long text capability,Long-CLIP),对图像和文本进行编码,获得图像和文本的特征表示,进一步引入跨模态注意力机制,建立图像和文本特征之间的交互表示;其次,利用多个卷积神经网络从不同角度分别获得图像和文本的深层特征表示,并利用Key_less Attention机制融合图像和文本的深层特征;最后,通过多层感知机实现多模态讽刺检测。在公开的数据集MMSD2.0上进行实验,实验结果表明所提出的方法与现有的最先进的基线模型相比,Acc和F1分别提升0.33%和0.15%,表明了图文交互及深层特征可以提升多模态讽刺检测的性能。
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充