半监督进化集成及其在网络视频分类中的应用

来源 :西南交通大学 | 被引量 : 1次 | 上传用户:nb08611033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着软硬件技术的进步,数据挖掘特别是文本挖掘得到了极大的发展。在各种社交网络,网页和其他信息为中心的应用产生了大量的文本数据。这些不断增长的文本数据急需算法设计的提升,即能以一种动态和可扩展方式从这些数据中学习到有趣的模式。作为数据挖掘领域的一种优秀算法,聚类集成用于平衡不同聚类结果的差异并融合不同的聚类结果为单一的解决方案,具有更好的鲁棒性、稳定性与准确率。社交网络多媒体的发展与普及使得社交视频成为视频信息的主体。这丰富的视频使得其选择标准变得日益复杂,以至于用户很难从中搜索并获取到所需要的视频,对此类视频进行分类已成为当前一个研究热点。对现有数据挖掘领域的进展进行分析发现其中常见研究问题均与聚类或分类相关。如今有多种不同的算法相继被提出用于解决网络视频分类问题。在特定情况下,附加信息在半监督学习算法中扮演着极为重要的角色。本文提出了三种不同的算法用于社交网络视频挖掘,即网络视频分类(WVC),主要是利用了其低成本的文本特征、内在关联信息及外在网络支持信息。本文的主要工作包括以下三个部分内容:首先,基于视频上传者提供的文本信息,提出了一种新的视频分类算法——基于半监督聚类的相似划分算法(SS-CSPA)。该算法的特点在于引入无监督学习、聚类间的共识及成对约束外加支持。在提取文本信息后,基于向量空间模型,视频信息可表示为特征词条向量。将成对约束以must-link对通过网状拓扑结构形式组合在一起,即若一个视频与一组视频相关,则该组内的所有视频均相关。最后,在must-link约束指导下通过聚类集成算法将三个不同聚类算法的基聚类结果聚合起来。实验验证了所提出的算法的可行性。其次,提出了一个改进的网络视频分类算法——结合遗传算法的基于半监督聚类的相似划分算法(SS-CSPA-GA)。该算法的特点在于改进了视频间的相似性度量方法,其考虑到特征词条的语义相似性,将传统的向量空间模型扩展为语义向量空间模型,并使用WordNet度量两个特征词条之间的关联程度。借助于遗传算法和通过其中的适应度函数——预成对百分比这一新的评价指标,实现了聚类集成过程的迭代。引入该评价指标的目的在于当标注数据缺失时实现不同聚类结果的对比,其思想是满足越多must-link约束的聚类算法结果越优。交叉和变异是遗传迭代中最重要的步骤,可以实现从现有的种群中产生新的个体。采用了聚类集成中智能的机制来表示这两种遗传操作,其目的有两个方面:扩大搜索空间和确保后代的健壮性,即后代应具备比其父辈更优的特性。最后,在真实社交媒体(YouTube)数据上的实验验证了我们所提出的改进算法的有效性。最后,通过融合网络视频的低成本文本特征、内在关联信息及外在网络支持,提出了一个适用于网络视频分类的系统框架——半监督进化集成(SS-EE)。在前述研究中我们发现,很难在不同的视频类别间划设一个明确的分类界限。基于不同视频类别中最相关词条的频率,通过定义一个新的特征词条间距离——三角相似度量,解决了不同视频类别边界重合的问题。该策略的要点在于借助一个第三方的参照视频间接得到两个视频间的相似度而非直接对比两者间的相似度。此外,将传统的向量空间模型扩展为语义向量空间模型,即通过使用标准化Google距离(NGD)来度量特征词条之间的语义相似度。同时,基于相似度矩阵及聚类标签,定义了一个新的评价指标一一聚类质量(Cq)来作为遗传迭代终止的条件。在真实社交媒体(YouTube)数据上的实验验证了所提出的SS-EE框架的合理性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着经济的飞速发展,国企受到日益激烈的市场环境的影响。因此,为了适应改革发展的新需求,国企需在人力资源改革发展新模式的影响下,逐步落实情理法的管理模式,这是保障国企
如今全球变暖以及环境污染问题越来越备受关注,现代社会对能源的要求进一步提高,解决能源和环境问题成为一大挑战。欧美等电力大国已经转变生产模式,向智能化方向发展,所以我
本文根据玻璃钢门,窗型材用原材料,配方及生产工艺参数等,探讨了拉挤型材主要性能及其影响因素.
市场飞速发展使得企业之间的竞争越来越激烈,不断变化的市场需求迫使企业不断地调整自身的业务,而这些不断变化的业务信息,即软件需求对企业应用软件的开发也提出了更高的要
目的观察分析糖尿病患者罹患胰腺癌的临床特征。方法选取107例胰腺癌患者(分为非糖尿病合并胰腺癌组66例和糖尿病合并胰腺癌组41例)和100例糖尿病未合并胰腺癌者(糖尿病正常对照
为加强珠心算师资队伍建设,推动珠心算教育事业发展,贵州省珠算心算协会于2011年7月25日至29日,在贵阳市举办珠心算教练师培训班。
访问控制作为系统安全的基础,是等级保护信息系统安全建设的一项重要内容。在等级保护信息系统建设过程中,管理者为了保护系统安全,引入了大量的防护设备和防护措施,然而由于
早期的人类靠面对面交谈、面部表情、肢体动作进行交流的.昆虫不会说话,也不会写字,它们是怎样交流的呢?……
作为一类自动制造系统,柔性制造系统由统一的信息管理系统、物料存储和传输系统以及一组数字化的控制处理装置组成。它的出现意在高度自动化制造系统的效率与柔性之间建立一