利用文本可信度的增量文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:cwsyydr01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标注训练样本是文本自动分类中的基础和关键。大规模的标注训练样本需要人工干预,耗时、费力,难以在有限的时间内完成,而未标注文本却十分丰富。如何利用少量的标注样本和大量的未标注文本快速(限时)构造出数量较大的标注样本成为了文本增量学习中的热点和难点。本文采用FEM评估方法和SEM评估方法来度量文本的可信度,将可信度高的文本看作标注文本,以此构造算法来解决上述问题。具体工作如下:   本文将聚类和贝叶斯增量学习结合起来,提出了基于文本可信度的增量学习方法。该算法包括2个步骤:(1)首先对新增训练集进行子集划分,构造出一个子集序列;利用FEM评估方法依次迭代找出每个子集中的正确集区间和模糊区间,将正确集区间内的文本看作可信度高的文本,合并到标注样本集。在此处理过程中,后一步的FEM评估中所使用的分类器是根据初始标注样本集和在此步之前获得的所有可信度高的文本共同构成的文本集训练得到的。(2)将前面所有模糊区间合并为一个大的模糊区间,并对其进行AP聚类处理,利用SEM评估方法将聚类结果中可信度高的类簇中的可信度高的文本合并到标注样本集。更新模糊区间,迭代第(2)个步骤,直至模糊区间为空。这里,可信度高的类簇指纯度高的类簇。   本文提出方法的优点:(1)弱化了噪音数据的影响,提高了分类器的精度;(2)每个增量步选择的文本数多,迭代次数少,大幅度减少学习时间,更适合于大规模数据的处理。(3)在处理海量未标注文本时,仅采用FEM评估方法,就可以快速获得约80%标注可信度非常高的文本,无需标注更多的文本,即不需要继续从模糊区间获得文本。   实验结果表明,本文提出的增量学习方法具有较高的性能和学习效率。相对于现有的方法,分类的F1值提高了5个以上百分点,学习平均时间从1865s锐减到115s。  
其他文献
导航路径规划长期以来都是移动机器人领域的研究热点,移动机器人拥有自主路径规划导航控制能力后,不仅获得良好的移动能力,也有效的增强移动机器人的智能性和使用过程中的安全稳
近年来,随着互联网和教育信息化的高速发展,网络教学已经成为信息时代深受欢迎的教育模式,为学习者提供了十分丰富的教学资源。然而,在带来便捷的同时,网络教学也存在着一些
网络编码已经成为了计算机和信息论领域研究的热点,本文相对于随机线性网络编码提出了一种基于确定算法的网络编码方式,我们称之为确定线性网络编码。分别讨论了其在单播和多
近年来,利用机器人或者计算机进行人脸识别已经成为人工智能与模式识别的一个重要研究课题,它涉及图像处理、模式识别、计算机视觉、神经网络及机器学习等多门相关学科。目前有
自动人脸识别是模式识别和人工智能领域最复杂和最重要的工作之一,可广泛应用于安全控制、监控系统、人机交互等领域。   近年来,人脸检测和识别领域取得了长足的发展。Adab
动态纹理(Dynamic Texture,简称DT)是指具有运动特征的纹理,它由在时间上呈现某种稳定性的图像序列构成。现实世界中存在着大量的动态纹理,如海波、烟雾、火焰以及飞翔的鸟群
实时数据流挖掘是数据挖掘领域中极其重要的研究方向。现代社会中随着计算机技术的飞速发展以及计算机应用的普及,实时数据流应运而生,它们具有时序性、快速变化,概念漂移、数据
网络用户对于信息获取、用户交流和个性表达需求的增加促进了一种新型社会网络的出现和发展,即在线社会网络。在线社会网络的高速发展使用户行为、关系、网络的结构和演化成了
随着无线Mesh网络的不断发展,规模越来越大,应用越来越广泛,提供的服务也越来越丰富,使得无线Mesh网络的路由机制研究随之成为了一个关注热点,而多径路由机制由于稳定性与整体路由
城市道路交通问题已经成为城市管理所面临的最大挑战之一,智能交通系统(ITS)被视为是最有效的解决方法和未来交通的发展方向。交通车流量统计是智能交通系统的关键技术之一,同