基于SVM的网络文本分类问题研究与应用

被引量 : 0次 | 上传用户:milan_27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源己涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。处理这些海量数据的一个重要方法就是将它们分类。通过自动分类不仅仅可以将网络文本按照类别信息分别建立相应的数据库,提高中文搜索引擎的查全率和查准率;而且可以建立自动的分类信息资源,为用户提供分类信息目录。本文对文本分类的基本概念和相关算法以及SVM算法的国内外研究现状进行介绍和讨论。针对不同的基于SVM多类别分类方法分别进行了研究,在此基础上,做了以下工作:首先,本文研究分析文本分类的总体过程,包括:信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法,并根据实际情况提出了一种综合特征提取方法。其次,认真研究了统计学习理论的主要内容和SVM算法的基本原理,并且就SVM的多种多类别分类算法分别加以讨论。针对传统的支持向量机大类别分类算法存在的不足,结合支持向量机快速准确的分类性能和纠错输出编码误差修正的特点,提出一种多类分类SVM网络分类方法。最后在完成基于SVM多类别分类的理论研究的基础上,将其理论应用于实践,构建了一个了基于SVM的网络文本分类模型。在该模型的基础上,以LIBSVM为工具软件,结合实验语料集分别验证了基于SVM的多类分类方法,得以证明多类分类SVM网络分类方法有较好的实用性。
其他文献
目的 :探讨心理干预对改善乳腺癌患者焦虑、抑郁症状的效果。方法 :将伴有焦虑、抑郁症状的142例乳腺癌患者分为干预组92例和对照组50例。对照组行常规健康教育;干预组在常规
客户经理制度是一种新型的营销体系。农村信用社客户经理制度,是指信用社在内部培训和聘用一批专业的金融产品营销人员,通过他们向客户全面营销信用社的所有金融产品和服务,全面
<正>据人社部统计,截至2016年底,我国社保卡持卡人数达到9.72亿,预计2017年持卡人员规模将突破10亿。人社部表示,将于2017年底基本实现跨业务、跨地域的一卡通用。按照人社部
应急服务设施的选址问题是应急系统设计的关键问题,将应急服务点置于合理的位置,不仅可以降低运营成本,而且还能够保证应急物资供应的时效性。本文结合P-中值模型和P-中心模型的
固定资产是医院赖以生存和发展的物质基础,也是医院财务管理的重要组成部分。长期以来,医院对固定资产是重购置、轻管理;重拥有、轻效率;重规模、轻效益,造成医院固定资产使
回顾利益相关者理论的产生和发展,及其在相关领域中的应用情况。重点介绍本理论在卫生领域中的研究方法进展,以期对利益相关者影响指数在农村卫生适宜技术推广应用项目中的应
脂质体作为一种重要载体,能够提高制剂稳定性、提高生物利用度及靶向性。与长链脂肪酸相比,中链脂肪酸具有吸收快,无积蓄,几乎全部作为能量来消耗等特点。本实验旨在研究中链脂肪
通过对昆明市37个社区卫生服务站运行状况及运行过程中存在的问题进行分析得知:昆明市社区卫生服务站发展势头良好,但运行中以下因素制约了社区卫生服务的进一步发展:卫生主
对 Sr4Al14O25:Eu 的激发光谱、发射光谱、长余辉发光的特性和耐光性进行系统的研究,并与传统的 ZnS:Cu 夜光粉进行了性能对比,结果表明:Sr4Al14O25:Eu 是一种性能更加优良的
为了进一步完善偏心受压构件的计算方法,在回顾偏心受压计算发展过程的基础上,指出了现行规范计算方法存在的问题与不足,提出了偏心受压的统一计算模式。统一计算模式是在引