Google的AI会了解视频中的操作是如何连接的
人工智能系统已经非常有能力识别来自不同来源的视频中的对象(和动作)。但它们并不完美,部分原因在于它们大部分都是在包含带有单个标签的剪辑的语料库上进行训练。逐帧跟踪不是一种特别有效的解决方案,因为它需要注释器将标签应用于每个视频中的每个帧,并且因为“教导”模型以识别之前未曾见过的动作,所以需要标记新的剪辑从头开始。
这就是为什么谷歌的科学家提出时间周期一致性学习(TCC),这是一种自我监督的AI训练技术,可以在类似的连续过程(如举重重复或棒球场)的例子之间轻拍“对应”,以学习非常适合的表示时间视频理解。代码库在GitHub上以开源形式提供。
正如研究人员所解释的那样,捕捉某些行为的镜头包含关键的共同时刻 - 或对应 - 这些时刻独立于视点变化,规模,容器风格或事件的速度等因素。TCC试图通过利用周期一致性来查找跨视频的这种对应关系。
首先,训练算法通过单独摄取每个帧来产生视频帧的嵌入(数学表示)。然后选择用于TCC学习的两个视频,并且使用从两个中的一个中选择的参考帧的嵌入来识别来自第二视频的最近邻居帧。完整性检查确保最后一帧引用回到起始参考帧,并且在训练过程中的嵌入器在正在执行的动作的上下文中产生对每个视频帧的语义理解。
研究人员表示,TCC可用于将不同动作的阶段分类为只有一个标记视频,并且可以通过选择参考视频中每个帧的最近邻居来一次对齐多个剪辑。此外,他们说它可以将与一个视频中的任何帧相关联的元数据(如时间语义标签,声音或文本)传输到另一个视频中的匹配帧,并且可以使用给定视频中的每个帧来检索相似的帧通过在嵌入空间中查找最近的邻居。
在一项实验中,研究人员报告了一种监督学习方法,该方法不使用TCC,需要约50个视频,每个帧标记为达到与自我监督的TCC方法仅用一个完全标记的视频管理的相同的准确度。另一方面,该团队成功地将液体的声音从一个视频传输到另一个视频。
Google Research研究助理Debidatta Dwibedi写道:“这......对于从事视频理解的研究人员以及希望利用机器学习来调整视频以创建人,动物和物体同步移动的马赛克的艺术家非常有用。”