多标签文本分类算法研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:jjass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类根据分类后类标签的个数可分为:单标签分类和多标签分类。实际应用中,多标签分类是相当普遍的。目前对多标签分类的研究主要集中于多标签分类的特征选择和分类算法。但现有的多标签特征选择算法性能都难以得到满意的效果,有的时间效率低,有的对分类性能的提升影响不大。同时多标签分类算法也存在不考虑标签相关性以及无法显式显示分类规则等问题。通过对现有多标签特征选择算法的研究,结合Bootstrap的特点,本文提出了一种基于Bootstrap的组合多标签特征选择算法,该算法首先在特征选择前期使用Bootstrap方法为基特征选择算法抽取训练集,然后利用基特征选择算法对特征进行评价,再使用投票方法组合基特征选择算法的结果来确定特征的权重,最后依据特征的权重进行特征选择。实验表明该算法能有效提高分类性能。同时对多标签分类算法进行了研究,将粗糙集理论用于多标签文本分类,提出了基于粗糙集理论的多标签文本分类算法,该算法利用训练阶段得到的各个类别的分类规则与测试实例逐一匹配,得出实例的类标签集合,扩展了粗糙集理论在文本分类中的应用。考虑类标签之间关系,利用频繁项集挖掘算法挖掘类别之间的关联信息,并将挖掘出的关联规则用于对分类结果的校验,提出了基于频繁项集的多标签文本分类算法,该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后再利用挖掘到的类别之间的关联规则对分类结果校验。实验表明本文提出的算法有效可行。
其他文献
计算机科学和生物物理学及神经心理学的结合是目前学者们研究的热点,而基于视觉注意机制的计算模型的研究是三者结合的核心问题。视觉注意机制是人类特有的生理特性,它在人类
近年来,随着计算机技术和网络技术的发展,以纸和笔为主要工具的传统考试方式的考试过程成本高、效率低下等诸多弊端越来越凸现出来。针对这一现状,在线考试系统应运而生。在线考
随着计算机和网络技术的不断发展,现代远程教育在中国取得了长足的发展。宁波广播电视大学通过外部引进和自主开发等方式建设了以教务管理系统、远程教学系统、办公自动化系统
Internet技术的飞速发展促使信息迅速膨胀,对信息资源管理和共享的需求亦变得越发迫切,使得已经在传统领域内趋于成熟的数据库技术,面临着许多新的问题和挑战。   在加入世界
学位
随着互联网技术发展逐渐成熟,人们的生活越离不开网络,电子商务技术的应用进入的飞速的发展阶段。互联网络的开放性使得任何人在任何地点、任何时间都可以在网上销售或购买商
协议测试是协议工程学的重要研究领域之一。其中,协议测试中的一致性测试是近年来国际上非常关注的、也是发展较快的一个研究领域,它是协议测试的基础,是提高和保证协议实现
Web3D技术的进步和互联网技术的提高极大地推动了国内基于Web3D的电子商务的发展,特别是随着上海世博会的成功,吸引大家对Web3D技术的注意,也使大家对Web3D技术有了全新的认识。
新世纪由于科学研究的发展以及互联网普及程度的提高,使得人们以从未有过的便利去共享与查找科研资料。但面对海量文献,进行交叉研究的学者或者是对其涉及领域不熟悉的研究人
数据挖掘是信息处理和数据库技术领域的前沿研究课题,是致力于数据分析和发现数据内部蕴含知识的技术。聚类分析是数据挖掘领域中的重要技术之一,是一种数据划分的重要手段和方
21世纪的交通将是智能化的交通,智能交通系统(ITS)能快速准确地进行交通信息的采集、处理、决策和指挥调度,使交通基础设施发挥最大的效能。交通信息处理包括的车型的检测与