支持向量机及用于文本分类的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:A403537889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络的迅猛发展,如何对网络上大量的自然语言文本按照既定的语义进行正确的归类,已经成为组织大量网络信息的一个关键问题。这就是文本分类的任务。电子文本成几何级数增长,日常生活中海量信息的传播,迫切的要求我们能对这些文章进行自动分类。使用文本自动分类系统可以帮助人们自动检查文本,判断文本的类别。 本文采用最大间隔—支持向量机的关键技术,实现了文本的自动分类。学习算法是通过对已给定类标记的训练文本的学习,自动产生分类规则,该规则在今后预测未知的文本的类别时,有较高的精确性。本文主要工作及创新点在于: 1.基于文本分类的技术的掌握,包括文本的表示方法,特征的选取以及文档分类的评估指标等。我们讨论并实现了文本表示的全过程,包括提取词干,去除高频率和低频率特征词,得到数据字典,然后经过权重计算,生成文本向量空间,即训练样本和测试样本数据。并采用SVM算法,设计出文本分类实验系统。通过在Ruters-21578文档集上的实验,该系统证明了SVM能切实有效的解决文本的自动分类问题。 2.在研究SVM算法的过程中,我们发现算法本身易过学习,并且训练时间很长。为了解决这些缺陷,我们提出了基于减法聚类的SVM算法。减法聚类是根据密度指标,选取聚类中心点,聚类中心点也为训练数据点本身。这样就达到减少训练数据个数的目的。我们用选取的聚类点作为新的训练集合,构建SVM。在两类和多类的标准数据集上的实验表示,该算法较之传统SVM有好的分类准确性和泛化能力,但是用于优化计算的时间却大大减少。
其他文献
当前生命科学、临床医学、医药、及生物信息领域都重点关注生物标志物的研究。生物标志物对临床诊断及预后分析、新药物研制等具有明确的指导作用。从组学研究的角度一般利用
本文针对当前企业应用集成研究中存在忽视业务流程集成、集成平台缺乏灵活性和适应性、扩展性较差、互操作性不高等问题,提出了采用Web服务和事件驱动技术解决企业应用集成问
近年来,芯片工艺技术水平不断提高,各种低功耗、高性能的处理器不断改进,这些科技的进步使得可穿戴设备硬件体积减小的同时还能够进行大量的任务计算。在生活中,各种可穿戴设
保障信息系统安全的最主要方法是密码验证。目前,最有效的认证机制是是基于双因素身份认证。它是最安全的,因为它不仅仅验证用户个人信息(用户名和密码),还需要第二个因素例如一个
简单地说,VPN即是指在公众互连网上所建立的网络,并且此网络拥有与专用网络相同的安全、管理及功能等特点,它替代了传统的拨号访问,利用Internet公网资源作为专用网的延续,节
随着信息技术的飞速发展,各种数据的实时采集和处理在现代工业控制中已必不可少。在应用广泛的数据采集与监控系统,即SCADA(Supervisory Control And Data Acquisition)系统和
在对大量数据处理中,可以从不同概念层次、不同粒度上去观察、分析问题,从不同的属性值取值粒度层次中得到不同层次信息的知识,满足人们对不同抽象层次知识的要求。概念格是
Internet的快速发展,推动了Java语言的产生,促使了基于J2EE体系架构程序的流行。然而在J2EE平台上进行开发时,由于缺少大量成熟的可复用组件,使得Java开发的效率低下。 本文对
面对巨量的并发请求,现有服务平台大都缺乏能跟随负载同步增长的可伸缩服务能力,从而造成服务品质急遽下降。针对这一问题,本文通过对现行主流服务器内部结构的比较分析,提出
随着用户规模不断增大和业务系统复杂化,现在的数据中心规模越来越大,复杂程度越来越高。为了使得未来的数据中心能提供多种应用,结构更加扁平化,新一代的数据中心将更多的运用融