基于贝叶斯理论的增量文本分类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:Gemini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类算法需要大量的标注文本,但标注大量训练文本需要艰苦而缓慢的手工劳动,从而制约了整个分类系统的构建。增量学习技术可以利用少量的已标注文本对大量的未标注文本进行标注,可以有效解决标注瓶颈问题,因此逐渐引起人们的关注。由于贝叶斯方法能够充分利用先验知识,使它成为增量式文本分类的重要选择。基于0-1分类损失的增量贝叶斯分类算法是通过计算测试集中文本的分类损失大小来确定新增训练集中文本加入到原始训练集的顺序。但该算法存在下述三个问题:首先,噪音数据影响分类器精度的问题。由于当前分类器存在知识储备不足等因素而容易产生噪音数据,一旦这些噪音数据被过早地加入到原始训练集中,就会降低当前分类器的性能,进而影响整体分类精度。其次,新增训练集的规模影响增量学习效率的问题。当新增训练集规模过大时会增加增量学习时间。因此在处理大规模新增训练集时,如何提高效率成为增量学习的一个重要问题。此外,如何利用新增训练集中有用知识的问题。新增训练集中存在一种有用知识——具有高度相似性的文本,把这些文本作为一个整体来处理,它能够有效改善增量学习的性能。针对以上问题,本文提出的基于序列选择增量贝叶斯分类算法,该算法既通过选择合理的增量学习序列解决噪音数据影响分类器精度的问题,又通过基于划分的思想对新增训练集进行分割解决新增训练集规模影响增量学习效率的问题;还提出了基于快速聚类的增量贝叶斯分类算法来解决新增训练集中有用知识的利用问题,即通过近邻传播算法对新增训练集中的高度相似文本进行聚类,实现增量学习过程中的批量学习,从而显著提高了增量学习的效率。最后通过实验验证这些算法的有效性。
其他文献
信息技术对于当今教学日益重要,多媒体教学资源库的引进,为广大的教师找到了一条将信息技术应用于课堂教学的捷径。多媒体教学资源库系统主要采用LDAP实现,通过LDAP目录服务支持
数据分类是数据挖掘中一个重要的内容。常见的分类模型有决策树、神经网络、遗传算法、粗糙集等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量
边缘检测是图像处理中的重要内容,因为边缘是图像最基本的特征。在边界检测、图像分割、模式识别、机器视觉等中,边缘有很重要的作用。近年来研究模糊集边缘检测的研究者越来越
学位
随着全球信息化技术的发展,二维条码应运而生,并且具有很好的应用前景。作为二维条码的一种,QR码是建立在数字图像处理技术、组合编码原理等基础上的一种特殊码制。由于二维
随着视觉传感器技术的飞速发展,数码相机、摄像机等多媒体生产设备逐渐进入寻常百姓家。在这种情况下,人们生产、存储、分享图像信息的能力得到极大地提高。图像等多媒体内容
无线传感器网络综合了现代传感器技术、微电子技术、通信技术、嵌入式计算技术、和分布式信息处理技术等多个学科,是一个新兴的交叉研究领域。无线传感器网络能够实时监测、
贝叶斯网络将概率理论和图论相结合,为解决不确定性问题提供了一种自然而直观的方法。本文深入研究了贝叶斯网络的结构学习问题,主要的工作如下:1、研究了三类贝叶斯网络结构
随着通信技术的迅速发展,手机短信已成为人们生活中不可缺少的一部分。短信服务已渗透到教育、政府机关、银行等多种行业,相关行业的服务形式和服务内容因此有了重大的突破。
近年来随着无线通信、集成电路、传感器以及微型机电系统(MEMS)等技术的飞速发展,使得低成本低功耗、多功能的微型无线传感器的大规模生产成为可能。由这些具有无线通信、数
近年来,计算机测量技术得到飞速迅猛发展,很多新的检测技术应运而生,由此,在线测量能达到高精度高速度的标准。图像测量技术的一个重要方面是图像边缘检测,边缘检测主要对图像提取