您的位置: 首页 > 中文期刊论文 > 详情页

自监督流形结构的第一视角视频时序分割算法

作   者:
张明明闫小强孙中川胡世哲叶阳东
作者机构:
郑州大学计算机与人工智能学院
关键词:
第一视角视频自监督学习时序分割特征表示流形结构
期刊名称:
计算机学报
i s s n:
0254-4164
年卷期:
2025 年 48 卷 002 期
页   码:
266-283
摘   要:
随着可穿戴设备和智能存储技术的普及,第一视角视频的使用量高速增长。将这类视频划分成独立的视频片段以提取关键的内容信息,成为了视频理解领域的重要研究方向。这类视频数据规模大、维度高、内容多样,基于欧氏空间的特征学习方法难以有效地处理复杂高维的视频数据。现有时序分割算法在处理第一视角长视频时,很难应对因手部遮挡和运动模糊而导致的帧信息丢失问题。针对上述问题,本文提出了一种自监督流形结构的第一视角视频时序分割算法(Self-Supervised Manifold Structure,SSMS)。受高维视频数据在低维流形空间中具有相似语义聚集现象的启发,该算法将包含时序信息的帧特征进行低维嵌入,使得语义相似的帧特征映射到流形空间中相近位置。首先,本文提出了一种改进的局部流形结构特征学习策略,提取帧数据的局部流形结构。其次,SSMS算法构建了动态时序网络,基于最大相似关系来获得具有不变性的特征表示。然后,将帧数据的流形结构特征作为监督信号进行自监督学习。经过不断迭代优化,得到低维高质量的帧数据特征。最后,通过聚类过程实现第一视角视频的无监督时序分割,避免了标注数据的限制和成本。相比于现有的无监督时序分割算法,本文方法在五个第一视角数据集上平均提高了3.37%的准确度。
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充