代价敏感的多标签分类算法及其在标签推荐中应用研究

被引量 : 5次 | 上传用户:markwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展带来了信息过载的问题,它使人们很难从海量的数据中找到所需的信息。自动分类技术作为解决信息过载问题的有效方法,已经在许多领域得到了广泛地应用。传统的分类假设实例仅与一个标签相关,而类似图像、文本、生物信息等领域中,实例往往都与多个标签相关,传统分类并不再适用,因此多标签学习成为重要的研究课题。此外,传统分类假设所有分类错误的代价是相同的,但是在现实世界的应用问题中,不同的分类错误往往会造成显著的不同代价,因此,代价敏感学习在此类应用中具有重要意义。社会标签推荐作为近来研究的热点问题,由于其标签的相关性和包含噪音信息两大特点,使得多标签分类和代价敏感分类得以应用于社会标签推荐。本文主要研究多标签分类算法和代价敏感分类算法,并根据社会标签的特点,对多标签分类算法和代价敏感分类算法及其两者结合在社会标签推荐中的应用展开了相关研究。首先,本文对多标签分类与代价敏感分类的概念进行了阐述,分别总结了多标签分类和代价敏感分类的相关算法,并分析了主要算法的优缺点。然后,提出了基于标签聚类的多标签算法,该算法通过标签平衡k-mean聚类来挖掘那些隐藏在训练集的重要标签组合,并将其按照一定方式添加到原训练集形成新的训练集,再对新训练集进行学习得到分类器,以此改进原有基于LP的多标签分类算法。经过在多标签数据集上的实验表明,该算法能够有效发现训练集中隐藏的重要标签组合,提高算法的分类性能。最后,根据社会标签推荐的两大特点,本文将社会标签推荐的问题分别建模成多标签分类问题和代价敏感分类问题进行了研究,在此基础上,结合代价敏感分类与提出的多标签分算法,并应用于社会标签推荐。经过在社会标签数据集上的实验表明,结合算法相较于单独使用代价敏感分类或多标签分类算法,无论是从常规评价指标还是代价敏感评价指标,都具有更加优越的性能。
其他文献
BOT (Build-Operate-Transfer)是20世纪80年代国际上兴起的一种项目融资和建设模式,是私营部门参与基础设施建设,向社会提供公共服务的一种形式。“国道昆明东连接线”是昆明
随着定位技术和移动网络技术的发展,基于位置的服务(LBS)的研究正越来越热。位置服务涉及的技术包括定位技术、嵌入式系统技术、移动通信技术、地理信息系统技术、互操作技术、
黎族酒类包括Biang酒,椰子酒,槟榔酒,番薯酒等,其用料独特,酿法特殊,酒味奇异,黎族酒文化的社会功能主要有三方面,借酒传情,以酒会友,以酒庆典。
采用静水试验法,在水温29.1—30.7℃,pH8.0—8.2,盐度29.5的条件下,用敌百虫、甲氰菊酯和益扫剂3种药物对体长2~3cm裸体方格星虫(Sipunculus nudus)稚虫进行了急性毒性试验,以期为星虫养殖
"小偷摔死"让失主承担罪责或者责任总感觉是一个违反法律常识的问题,然而,或许首先要拷问的是"小偷怎么就摔死了呢"。这种小概率事件超出了当事人的预见范围,但是同样可能会
新疆位于中国西北部,气候干旱、水源紧缺、土壤本身含盐较高和灌溉管理制度不合理导致棉花大面积减产。本试验针对轻、中、重盐度三种含盐量不同的棉田进行全生育期土壤水盐运
对漳州各地池塘蜻蜓稚虫的生活习性及为害特点进行观察研究,并提出蜻蜓稚虫安全有效的防治措施。
海水网箱养殖鲈鱼皮肤溃疡病近几年已成为主要的病害。该病主要发生在高温期,一般7月份开始,延续到10月份,8~9月份为高峰期。发病迅速,范围大,感染率高,死亡率一般为20%~60%,高
出租汽车行业的发展越来越得到社会各界的重视,北京市于2013年进行了一次价格调整,为探究北京市出租汽车调价政策的实施效果,本研究首先将影响居民出行方式选择的各因素分成
近年来,随着运动捕捉技术的不断发展以及运动捕捉系统的广泛应用,逐渐积累了大量的运动捕捉数据,这些数据被广泛地应用在了三维动画、游戏和电影制作等产业中。由于运动捕捉