文本分类算法的研究与实现

来源 :安徽大学 | 被引量 : 0次 | 上传用户:w734289467
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展及其普及应用,用户迈入了信息快速发展的时代。一方面,如此庞大的信息库满足了用户对各类信息的需求,而另一方面,信息库中内容过于繁杂,想要准确检索到所需信息已成为一个难题。为了解决此类由信息过载引起的问题,文本分类技术被提出,文本分类是依据已标记类别的信息,判别新信息的类别,能有效处理和组织互联网上的海量信息,它可以让用户更加方便快捷地获得所需信息。目前,虽然已有很多针对分类性能改进的方法,但随着信息库的快速膨胀,执行分类算法时,面临着如何快速准确找出具备代表性数据的问题,特征选择和特征加权对该问题有着最直接的影响,因此,本文主要围绕这两个过程进行深入研究,并提出相应的改进方法为:基于蚁群算法的特征选择,以及结合类别先验信息和特征项分布情况改进的加权方法。本文的主要工作可概括为:1.重点介绍了几种典型的特征选择方法和特征加权方法,分析了它们的优势与不足。2.针对文本分类中初始特征空间维数过高及特征冗余问题,结合蚁群算法和特征选择过程,采用了基于蚁群算法的特征选择方法。该方法基于对评估函数、状态转移规则和信息素更新规则的研究设计,并引入局部搜索机制,由此可有效排除大量的关联特征和冗余特征。3.针对传统的TF-IDF特征加权方法只是单纯的考虑到特征项的词频,而忽略了类别先验信息及特征项在整个训练集分布情况对分类结果的影响,本文分两步对传统TF-IDF加权方法进行改进:首先结合TF-IDF加权方法和TF-RF加权方法,提出TF-RFIDF特征加权方法;然后在TF-RFIDF加权方法的基础上,根据熵的概念,推出类内和类间信息分布熵的参数,由此提出一种有效的加权方法TF-RFIDFimp,进一步提高了特征项权重的准确性。实验表明,改进后算法的查准率、查全率及F测试值均比传统算法的值有所提高,从而进一步证实了改进算法提高了文本分类的性能。
其他文献
随着网络技术与终端能力的不断演进,用户对消息业务的需求逐渐向多媒体信息交互、多地址/多设备的业务接入方式、融合统一的业务体验进行转变。基于以上的业务发展趋势,OMA组
随着互联网的发展,传统的网络架构在灵活性和可管理性存在的问题日益凸显。为了解决该问题,近年来诞生了软件定义网络(Software Defined Network,SDN)这种新型网络架构,其核
随着网络技术的飞速发展和网络传输速度的大幅度提高,基于Internet的应用也越来越丰富。在众多的应用技术中,电子数据交换是一项涉及面广,影响力大,蓬勃发展中的信息技术,已
随着社会的不断发展,科技的不断进步,计算机技术水平的不断提高,数字化成为当今社会发展的一种趋势,以数码相机为代表的数码成像技术引起了学术界和产业界的重视。出于对数码
实现社区政务信息的集成和共享,解决社区各部门间日益增多的“信息孤岛”问题,这是计算机研究领域一个需要解决的问题,数据交换的目标在于实现不同系统之间的数据信息资源,设
个性化服务作为一种新的服务模式已经引起世界各国通信业的关注。但是移动通信领域个性化服务的发展在各国却不尽相同,在总结了众多失败和成功的案例后,我们发现个性化服务是
蚁群算法是20世纪90年代初期提出的一种新型模拟进化算法,其思想吸收了真实蚂蚁的行为特性,通过模拟真实蚁群搜索食物的过程来完成对问题的求解。它采用有记忆的人工蚂蚁,通
随着信息技术的发展以及云服务的普及,越来越多的企业或机构将本地大量的数据以及复杂的管理外包给云服务提供商,简化了租户对相关配套基础设施、后续改造升级、维护、运营管
随着数字化、信息化、网络化的发展和应用,计算机安全成为保证信息系统正常运行、发挥效能的不可忽视的重要因素,而其中文件存储安全成为计算机信息安全中的重要一项。文件的泄
数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容,它从大量的数据项中寻找隐藏着的联系或相关性。Apriori算法是关联规则挖