您的位置:
首页
>
中文期刊论文
>
详情页
基于多尺度时空Transformer的视频动态场景图生成模型
- 作 者:
-
王朱佳;
余宙;
俞俊;
范建平;
- 作者机构:
-
杭州电子科技大学计算机学院;
- 关键词:
-
注意力机制;
动态场景图生成;
视频理解;
多尺度建模;
语义分析;
- 期刊名称:
- 计算机应用
- i s s n:
- 1001-9081
- 年卷期:
-
2024 年
001 期
- 页 码:
- 47-57
- 摘 要:
-
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模.首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果.其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题.最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性.实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点.实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...