基于Web的中文文本分类技术的研究

来源 :河北工程大学 | 被引量 : 5次 | 上传用户:sunhoe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息已经成为信息处理领域的一个亟待解决的问题。Web文本分类作为Web文本挖掘中的重要技术,可以在较大程度上解决信息杂乱和“信息爆炸”的问题。作为搜索引擎、数字图书馆、信息过滤及信息检索等领域的技术基础,Web文本分类有着广泛的应用前景。本文分析了Web文本挖掘和Web文本分类的研究现状,指出Web中文文本分类领域需要进一步研究和解决的问题,在此基础上,对基于Web的中文文本分类技术进行了深入研究。本文主要内容如下:(1)对Web中文文本分类过程中的关键技术:文本自动分词、文本表示、特征项的权重计算、降维技术等进行详细地分析和讨论,指出现有权重计算方法的不足以及常用特征选择方法的优缺点。(2)介绍常用的分类方法,深入研究了统计学习理论基础上的支持向量机(Support Vector Machine,SVM)方法,分析了SVM用于Web文本分类的优势及不足;研究了粗糙集的相关理论,重点探讨了粗糙集的约简理论以及可变精度粗糙集模型,对粗糙集在Web文本分类中的应用可行性进行了深入的分析。(3)针对现有权重计算方法的不足,在分析Web文本特点的基础上,研究了HTML标记对网页内容的修饰作用,设计了HTML标记的加权策略,并提出了一种基于Web文本的可变精度粗糙集权重计算方法。(4)以上述内容为基础,提出了一种优势互补的Web中文文本分类混合算法;该算法中,粗糙集作为SVM的一个前端处理器,利用其约简理论以及基于Web文本的可变精度粗糙集权重计算方法分别从分类效率和分类精度两个角度对SVM方法进行优化;SVM作为后端分类器,利用SVM的优势对约简并加权后的数据进行分类,使得分类性能得到进一步保证;最后对该混合算法的具体实现过程进行详细地分析和阐述,通过实验验证了算法的有效性,并提出了其在辅助科技宏观决策中的应用模型。
其他文献
1月6日,教育部学校规划建设发展中心(以下简称教育部规建中心)联合曙光信息产业股份有限公司(以下简称中科曙光)及国内数十所高校共同发布了大数据行业应用协同创新体系的规
期刊
网络技术的飞速发展,极大促进了Web应用平台的广泛应用,同时Web应用安全问题也越发突出,其中造成危害最大最广泛的是注入式攻击。开发者在开发过程中一味追求应用功能的复杂性,却
当前,在我国的公路工程中,沥青路面被大面积的使用.由于沥青路面的优势颇多,例如地面稳定性强、安全性能交稿,后期的保养成本低廉,此外,还可以有效的减少噪音污染,因此备受公
[摘 要] 在高等教育大众化的背景下,人才培养质量关系到新建本科院校学生的稳定就业和职业发展,也关系到学校的声誉和发展前景。衡量人才培养质量高低关键看两点,一是培养的人是否符合社会的需求,二是培养的人是否有竞争力。为使学生成为社会需要的高素质应用型人才,本文从加强师资队伍建设、深化人才培养模式改革和加强校园文化建设三方面给出了思考。  [关键词] 新建本科院校;人才培养;质量提升  [中图分类号]
我国经济体制深刻变革,社会结构深刻变动,利益格局深刻调整,思想观念深刻变化,这些对大学生产生了深刻的影响,导致了很多具体问题.本文以问题为导向,分析当代大学生的文化素
ATM(自动取款机)集中监控系统要解决的主要问题是:将分布在不同地点的若干个营业网点的ATM监控图像视频流传送到某一个集中点,通过复合,在同一屏幕上有序排列、同时显示各网点
现在的建筑行业存在着很严重的市场竞争激烈,要想让众多建筑企业中脱颖而出,站住脚很,不仅需要大量的现金流和专业的技术工作人员,还需要对施工现场进行严格的管理,拥有一套
国企党组织在企业的改革发展中要明确具体的职能、任务,不断创新工作方式,这是坚持发挥政治核心作用的关键。近几年来,我们厂党委着力在融入企业的经营管理、为企业发展提供
通过分析 Fe2 O3基红外辐射涂料不同温度下的发射率曲线 ,研究了影响红外辐射涂料发射率的一些重要因素 ,并对它们影响机理 ,通过 x射线衍射光谱分析进行了初步探讨 .试验结
198名新人上岗,85位原博导未上岗——这是天津大学2016年博士生导师岗位选拔的结果.3年前,该校全面启动研究生教育综合改革,实现导师遴选机制的学术自治,打破终身制,使导师由
期刊