论文部分内容阅读
近年来,随着软硬件技术的进步,数据挖掘特别是文本挖掘得到了极大的发展。在各种社交网络,网页和其他信息为中心的应用产生了大量的文本数据。这些不断增长的文本数据急需算法设计的提升,即能以一种动态和可扩展方式从这些数据中学习到有趣的模式。作为数据挖掘领域的一种优秀算法,聚类集成用于平衡不同聚类结果的差异并融合不同的聚类结果为单一的解决方案,具有更好的鲁棒性、稳定性与准确率。社交网络多媒体的发展与普及使得社交视频成为视频信息的主体。这丰富的视频使得其选择标准变得日益复杂,以至于用户很难从中搜索并获取到所需要的视频,对此类视频进行分类已成为当前一个研究热点。对现有数据挖掘领域的进展进行分析发现其中常见研究问题均与聚类或分类相关。如今有多种不同的算法相继被提出用于解决网络视频分类问题。在特定情况下,附加信息在半监督学习算法中扮演着极为重要的角色。本文提出了三种不同的算法用于社交网络视频挖掘,即网络视频分类(WVC),主要是利用了其低成本的文本特征、内在关联信息及外在网络支持信息。本文的主要工作包括以下三个部分内容:首先,基于视频上传者提供的文本信息,提出了一种新的视频分类算法——基于半监督聚类的相似划分算法(SS-CSPA)。该算法的特点在于引入无监督学习、聚类间的共识及成对约束外加支持。在提取文本信息后,基于向量空间模型,视频信息可表示为特征词条向量。将成对约束以must-link对通过网状拓扑结构形式组合在一起,即若一个视频与一组视频相关,则该组内的所有视频均相关。最后,在must-link约束指导下通过聚类集成算法将三个不同聚类算法的基聚类结果聚合起来。实验验证了所提出的算法的可行性。其次,提出了一个改进的网络视频分类算法——结合遗传算法的基于半监督聚类的相似划分算法(SS-CSPA-GA)。该算法的特点在于改进了视频间的相似性度量方法,其考虑到特征词条的语义相似性,将传统的向量空间模型扩展为语义向量空间模型,并使用WordNet度量两个特征词条之间的关联程度。借助于遗传算法和通过其中的适应度函数——预成对百分比这一新的评价指标,实现了聚类集成过程的迭代。引入该评价指标的目的在于当标注数据缺失时实现不同聚类结果的对比,其思想是满足越多must-link约束的聚类算法结果越优。交叉和变异是遗传迭代中最重要的步骤,可以实现从现有的种群中产生新的个体。采用了聚类集成中智能的机制来表示这两种遗传操作,其目的有两个方面:扩大搜索空间和确保后代的健壮性,即后代应具备比其父辈更优的特性。最后,在真实社交媒体(YouTube)数据上的实验验证了我们所提出的改进算法的有效性。最后,通过融合网络视频的低成本文本特征、内在关联信息及外在网络支持,提出了一个适用于网络视频分类的系统框架——半监督进化集成(SS-EE)。在前述研究中我们发现,很难在不同的视频类别间划设一个明确的分类界限。基于不同视频类别中最相关词条的频率,通过定义一个新的特征词条间距离——三角相似度量,解决了不同视频类别边界重合的问题。该策略的要点在于借助一个第三方的参照视频间接得到两个视频间的相似度而非直接对比两者间的相似度。此外,将传统的向量空间模型扩展为语义向量空间模型,即通过使用标准化Google距离(NGD)来度量特征词条之间的语义相似度。同时,基于相似度矩阵及聚类标签,定义了一个新的评价指标一一聚类质量(Cq)来作为遗传迭代终止的条件。在真实社交媒体(YouTube)数据上的实验验证了所提出的SS-EE框架的合理性。