基于优化类中心分类算法的文本分类系统设计与实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:shilinjun2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对如今信息技术的飞快发展,各种电子文档和电子邮件都爆炸式的增长,为了从海量文本中及时准确的获得有效的知识和信息,就需要处理大量的文本。由于互联网上大部分信息都是以文本的形式存在,文本的识别就构成了高效信息获取的基础。利用文本分类识别技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高检索信息、利用信息的效率。文本分类已经成为组织和管理文本数据的重要形式。传统的人工分类已经不能满足如今的需要,它耗费大量的人力、物力和精力,并且分类结果一致性不高。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。 本文详细介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,研究现有的特征抽取和特征权重算法,介绍了常用的文本分类算法,并针对传统类中心分类算法由于训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。主要研究如下: 首先,阐述了文本分类的理论基础:分词、文本表示、特征提取、特征权重算法。 其次,介绍了文本分类常用的分类算法:贝叶斯方法,KNN方法、类中心分类方法、支持向量机方法、决策树方法,并对它们进行对比研究,最后提出了改进的类中心分类算法。 最后,在文本分类的相关技术的支持下,利用改进的类中心分类算法设计一个文本分类系统,并得到了良好的效果。
其他文献
随着信息产业的蓬勃发展,软件所扮演的角色越来越重要。在软件产业的发展过程中“软件危机”逐渐暴露出来。研究发现,“软件危机”的实质是缺乏对软件项目进行过程管理。对于中小软件企业,由于自身人力资源匮乏且人员流动量大、资金少和制度的不完善等原因,实施软件质量管理存在更多的困难。本文在开发一个质量保证系统之前对程序的开发框架进行了研究,提出了一个在中小软件企业中普遍适用的开发框架。针对中小软件企业自身的特
对于很多网络应用,高效可靠的互联网性能参数测量对其是否能正常工作至关重要,尤其是与语音、视频传输相关的应用。由于互联网的异构性和复杂性,许多现有的网络测量方法尚不完善
程序挖掘是网络环境下实现按需定制服务的一种新型的网络计算模式。它的基本思想是:分析用户计算需求,从构件资源库中检索获取所需构件,并把这些构件组装成满足用户需求的程
Adhoc网络具有自组织、无中心、动态拓扑等特点,广泛应用于民用、军事、救灾等各个领域。现有的Adhoc安全路由协议,大多运用密码学手段对路由消息进行安全操作,提供路由消息
随着空间数据获取技术的快速发展,空间数据的数量、大小和复杂性都在急剧增加,已经远远超出了人们的解释能力,致使“空间数据爆炸但知识贫乏”。因此,利用空间数据挖掘和知识
随着网络和电子商务的快速发展,信息的爆炸性增长在给人们带来便利的同时,也给人们带来了如何在大量信息中选择所需求资源的困惑。而推荐系统就是一个帮助用户解决信息过载问
随着信息技术的不断发展,特别是Internet应用的普及,电子文本信息急剧增加。如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息技术领域的
如何能在复杂多变的无线信道环境下对数据进行高速可靠的传输,成为通信业界学者研究的热点。多输入多输出(Multiple-Input Multiple-Output,MIMO)技术与正交频分复用(Orthogonal F
BPEL作为描述Web服务编制的语言之一,在商业流程中被用来描述活动和对活动的控制。BPEL具有类似程序设计语言的语法结构,如顺序、分支和循环等,能表达对业务流程的控制。BPEL
现场总线是一种用于智能化现场设备和自动化系统的开放式、全数字化、双向串行、多站或多节点的通信系统。基于现场总线的控制系统正在逐步取代传统DCS(DistributedControl S