基于支持向量机的新闻自动分类技术的研究与应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:xiaodehuwei123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。利用文本自动分类技术,可以快速地处理大规模的文本数据,大大地提高信息的可用性和利用率。目前,文本分类系统大多采用统计和机器学习的方法,这类方法在语义的水平上来分析文本内容,判断其相似度,从而得到类别划分。本文在对文本分类理论了解的基础上,对基于统计学习理论的支持向量机理论进行了深入的研究和探讨,然后提出了基于双词典的改进型双向最大匹配算法和基于动态表的停用词消除算法,这两个算法有效地提高了文本预处理的正确率,去掉了绝大多数无用的词项,使得表达文档特征的向量更准确。通过在文本预处理阶段提高预处理结果的准确性,尽量减少能够影响分类精度的文档噪声,提高SVM分类器输入的准确性,使得SVM分类器能够得到尽可能准确的结果。本文还提出了基于改进型多项式核的SVM多类分类算法,该算法比较好地解决了多类文本分类的问题,同时有效地利用了人工添加的类别,在较少的时间内可以完成整个训练和分类工作。最后结合这三个算法完整地设计和实现了一个新闻自动分类系统,并给出了评估方法和实验结果。
其他文献
近年来,随着人们生活水平的不断提高,人们的生活质量也得到了很大的提高,正在大步迈入和谐社会。同时EEG也得到了长足的发展,人们对EEG分析结果的要求越来越高。作为一门高科
随着传感器技术、低能耗电子和射频技术的发展,低能耗、廉价的无线微传感器逐渐得到大规模应用,相应的无线传感器网络应运而生。无线传感器网络可用于军事、商业、医疗救护、
本文主要研究基于Petri网的工作流档案管理系统建模和性能分析。在建模方面,主要是采用了基于工作流网(WF-net)的建模方法,并利用细化理论和基本组件,对大型、复杂的档案管理
本文中,我们考察了承诺方案的不同性质,并给出了将具有一类性质的函数(q-单向群同态)转变为非交互式不可延展承诺方案的通用方法和安全性证明。我们的方案不仅比通常的方案通
随着现代经济和科技的快速发展,人们的生活水平不断的提高,对关系到自身健康的药品质量有了越来越高的要求,国家对药品质量的检测监督要求也越来越高。胶囊作为很多药物的载体,在
最近几年来,基于移动通信技术的快速发展,国内的移动互联网也获得了长足的发展,以智能手机、平板电脑以及车载导航等为代表的移动智能终端得到了大范围的普及,给人们的生活带
我国自改革开放以来,经过30多年的计算机信息化建设,企业和各级政府机构已有大量的在线生产、办公自动化、信息管理和门户网站等信息化系统投入实际应用,为提高生产力、提升工作
信息技术和互联网的高速发展给人们生活带来了许多便利,但是随着网络中信息量的指数级增长以及网络内容的纷繁杂乱,网络用户花费了太多的时间从庞大的数据海洋中寻找自己所需
无线传感器网络是由在监测区域内部署的大量传感器节点通过无线通信方式形成的多跳自组织网络,能够实时监测、感知和采集各种环境或监测对象的信息并对其进行处理。在军事、
随着计算机应用范围的日益扩大,分布式实时系统应用越来越广泛。其中,对任务调度的问题是分布式实时系统一个关键的问题。合理的分布式实时系统的任务调度算法对发挥系统的并行