基于EM算法的半监督文本分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:asicsyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和大量文本资源的出现,自动文本分类成为研究热点。为了提高文本分类器的性能,通常需要大量带标注的训练文本。但是训练文本需要专家构造,这是一项费时且耗力的工作。然而,我们可以很容易获得大量未标注文本。半监督学习技术把少量的标注文本与大量未标注文本相结合,可以有效解决标注瓶颈问题,因此逐渐引起人们的关注。基于EM的半监督文本分类是通过EM算法将标注训练集与未标注训练集相结合构建分类器,利用未标注训练集的信息提高分类器的性能。该方法存在以下不足:由于初始标注训练集信息资源不足,分类器精度不高,未标注训练文本易被错误分类,这些不可靠数据会在一定程度上影响分类器的性能。针对该问题,本文提出一种改进的基于数据重构的半监督EM文本分类方法。该方法根据半监督学习的聚类假设,利用未标注样本与标注样本之间的关系,在每次迭代中利用数据剪辑和集成学习思想识别未标注训练集中的不可靠数据,对训练集进行数据重构。通过实验验证了该方法改进了分类器的性能。另外,一旦错误信息加入标注样本集,这些信息将对分类器产生消极影响,而使当前未标注训练集含有的有用信息得不到充分利用。针对这个问题,本文提出一种基于增量式EM的半监督文本分类算法。该算法充分利用中间分类器的有用信息,使用划分机制对未标注样本进行有效划分,并使用回馈学习机制对新增样本的信息进行修正,提高新增样本的可靠性,把未标注样本增量式地加入标注样本集,改进了算法的分类性能。最后通过实验验证了该算法的有效性。
其他文献
本论文中,首先提出了一种计算复杂性低而又有效的截断奇异值分解方法解决L2范数约束问题,用L曲线方法确定正则化参数,基于离体狗心脏数据集进行了实验,重建出了相应的心外膜电位
系统发育分析是生物学的一个重要研究领域,旨在重建所有物种的进化历史。系统发育树是一棵描绘物种进化关系的树,也叫做进化树。目前重建进化树的方法可以分为两大类:1)基于最优
MapReduce是一种并行分布式计算模型,用于大规模数据集的并行运算。它具有良好的可扩展性、容错性、可用性,现在,无论在工业界还是在学术界都得到了广泛的应用。MapReduce比较热
随着Internet技术的迅速发展,WWW的应用也越来越多,Internet上信息资源分布越来越广泛,种类越来越多,www已经成为大多数人获取信息的主要方式,但其信息其分布的广泛性和大量
随着智能手机、智能家居、智慧城市等这些词语的频繁出现,我们知道,智能化的时代已经离我们越来越近了。自然语言处理作为人工智能的一部分,在现今生活的各个方面发挥着重要的作
跳频扩频通信是目前国际上研究的热点课题。它具有抗干扰能力强、截获概率低、信号隐蔽和易于组网等优点,被广泛应用于军事和民用领域。扩频分直接序列扩频、跳频扩频、跳时
随着网络的发展和技术的进步,包括音频、视频在内的多元化通信方式成为下一代网络首要解决的问题,而IMS是下一代网络的核心,成为了当前各个标准机构、研究学者及运营商研究的热
在金融系统中,黑钱与热钱等资金异常的流动,严重的干扰了正常的经济秩序并导致财富流失。如何合理有效的对金融市场进行监测与监管,以维持正常的金融秩序,保护正常的金融行为
当前,随着计算机和通信技术的飞速发展,互联网已经成为人们日常生活中不可或缺的一部分。互联网的应用由以前简单的数据传输、到实时通信、再到现在的远程协作和控制,它的应
随着测序技术的发展,生物大分子序列数量快速积累,迫切需要了解序列所蕴含的重要生命信息。近年来,生物大分子序列的结构与功能研究已经成为生物信息学领域研究的热点问题。目前