近日,上海大学通信与信息工程学院硕士研究生王自强在导师刘志研究员的指导下,以第一作者在多媒体领域主流期刊《IEEE Transactions on Multimedia》(中科院SCI一区期刊,影响因子:6.513)上发表题为“Spatio-Temporal Self-Attention Network for Video Saliency Prediction”的研究论文,论文通讯作者为刘志研究员,受到国家自然科学基金委、上海市科委和国家留学基金委的项目资助。
三维卷积神经网络在视频注视点预测(显著性预测)任务中展现了颇具前景的结果,然而三维卷积仅能够在局部时空范围内编码视觉表征,实际上人类视觉注意力往往被视频中不同时间上的关联视觉特征所吸引。为了克服该局限,作者提出了一种基于时空自注意力机制的三维卷积神经网络(STSANet)。该网络在多尺度视觉表征上采用时空自注意力方法,提取不同时间上时空特征之间的全局相关性,以增强不同视频帧中的关联特征,实现了视频注视点预测准确度提升。
(附论文链接:https://ieeexplore.ieee.org/document/9667292)