论文部分内容阅读
针对视频分割中底层特征与高层语义之间的"语义鸿沟"问题,提出了一种基于多模态融合和镜头间竞争力的场景分割算法,对视频帧的图像、文本、音频等模态进行特征提取,用欧式距离、余弦距离计算出同种模态数据的相似性,用典型相关分析法计算出不同模态数据的相关度,分别对各模态数据的相似性和相关度进行融合得到镜头之间的相似度和相关度,采用镜头间竞争力的方法分别对相似镜头和相关镜头进行场景分割并对分割出的两个场景边界集合取交集得到最终的场景边界,从而实现对视频的场景分割。实验结果表明,该方法在场景分割中具有较高的性能,