基于半监督与集成学习的文本分类方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:tyftongyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1.半监督学习中的Co-training算法,通常假设两个特征视图具备一致性和独立性的要求,然而实际应用中同时满足上述条件且自然划分的视图往往不存在,且二者的独立性很难直接评判。本文提出了结合TEF-WA技术的Co-training改进算法TV-SC和TV-DC,通过评估两个基分类器之间的差异性,可间接评估两个特征视图的独立性,并通过实验证明了所提方法的有效性。   2.针对Co-training方法的独立性假设问题,提出了利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征独立模型(Mutual Independence Model,MID-Model)。基于该模型提出的特征子集划分算法PMID,能有效地将一个特征集合划分成两个独立性较强的特征子集,并从理论上对二者的独立性进行了论证,进而提出了对Co-training的改进算法SC-PMID。   3.提出了基于投票信息熵的样本权重维护新策略,对样本权重的调整不仅考虑样本是否被当前基分类器分错,而且考虑前几轮基分类器对该样本的投票分歧。同时,基分类器的信任度计算,引入了平均投票熵,当错误率相同时,对基分类器间的差异性贡献大的基分类器将获得更大的信任度。进而提出了基于投票信息熵和多视图的AdaBoost改进算法BoostVE,理论分析证明BoostVE算法的最小训练错误上界优于AdaBoost。   4.基于半监督学习和集成学习方法,提出了置信度重取样的SemiBoost-CS分类模型。采用基于最大差距和基于相似近邻两种方法,计算未标注样本的置信度,按照置信度重采样,不仅选取一定比例置信度较高的未标注样本,而且选择一定比例置信度较低的未标注样本,以不同的策略添加到标注样本集。这样既能提高基分类器的正确性,又可以增加基分类器间的差异性,从而提高集成分类器的性能。   文本分类(Text Categorization,TC)是机器学习、数据挖掘、网络挖掘、自然语言处理等领域的研究热点,在信息组织和管理、网络信息过滤等领域都有着广泛的应用,但目前面临缺少标注样本、分类精度难以进一步提高等诸多挑战。本文采用机器学习领域的半监督学习和集成学习机制,重点对半监督学习的代表算法Co-training以及集成学习中的AdaBoost方法进行了深入探讨,开展了如下创新性研究。   (1)提出了结合TEF-WA技术对Co-training的改进算法TV-SC和TV-DC,通过评估两个基分类器之间的差异性,可间接评估两个特征视图的独立性,并通过实验证明了所提方法的有效性。   (2)提出了基于特征独立模型的特征子集划分算法PMID,能有效地将一个特征集合划分成两个独立性较强的子集,进而提出了改进的半监督分类算法SC-PMID。理论分析和实验结果表明,SC-PMID算法明显优于结合随机分割法的Co-training算法。   (3)提出了基于投票信息熵和多视图的AdaBoost改进算法BoostVE,采用基于投票信息熵的样本权重维护新策略,能有效提高Naive Bayesian文本分类器的泛化能力。理论分析证明改进的BoostVE算法的最小训练错误上界优于AdaBoost。   (4)基于半监督学习和集成学习,提出了置信度重取样的SemiBoost-CS分类模型,给出了基于最大差距和基于相似近邻两种置信度计算方法。实验表明利用少量标注样本和大量未标注样本,SemiBoost-CS分类模型能够明显提升NaiveBayesian文本分类器的性能指标。   (5)在上述研究的基础上,使用VC++6.0设计实现了中英文文本分类系统SECTCS,集成了论文所提出的各种分类算法,并在20-newsgroup数据集和中文新闻数据集上进行了大量的对比实验。
其他文献
自动规划是人工智能中的一个重要研究领域,在机器人的动作规划,货运码头调度,以及工厂的车间作业调度,现代物流管理以及宇航技术等领域中都有着广泛的应用,因此受到了研究者越来越
随着计算机技术不断发展,软件的变化特性越来越受到广泛关注。特别是在动态异构的网络环境成为主流软件运行环境之后,网络的动态性和开放性使得硬件资源与客户需求更加频繁地
随着大规模集成电路、多媒体数据压缩、高宽带网络和大容量存储器件等技术的发展,目前视频应用领域在系统应用、数据压缩、传输和存储等诸多方面的瓶颈限制已被逐个打破。这
汽车交通事故是当今全球性公害之一,从全世界的统计数字来看,每年因道路交通事故而死亡的人数己高达40万人之多,伤1000万人以上,财产损失超过500亿美元,由汽车交通事故导致的
随着信息科技、网络技术和通信技术的迅速发展,电子文档是如今信息传播和分享的主要载体。信息的不断膨胀对电子文档的存储产生巨大压力,因此需要对这些信息进行分层压缩。分
随着网络的飞速普及,网络的安全问题日益严重。为了应对这种危机,人们研究了众多的安全技术和相关模型。在这些技术中,协议异常检测技术是一种新型的入侵检测技术。与传统的
学位
路面破损图像识别是图像处理和模式识别研究中的热点问题,近年来受到越来越多研究者的重视[1]。本文主要内容就是围绕路面破损图像的识别问题,研究各种破损图像的分类识别技术
网络应用已渗透到社会的各行各业,网民对网络安全的要求也日渐提高,网络安全逐渐成为了各界日益关注的焦点。网络应用的本质是软件,因此软件的安全问题是网络安全的核心。如
随着实时系统越来越多的被应用在多核处理器环境下,人们也越来越重视对多核处理器上实时任务调度问题的研究。当前问题研究的重点是如何保证任务的可调度性、系统的实时性、