Web文本分类研究及应用

被引量 : 0次 | 上传用户:wylaaram
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。 本文在分析Web挖掘和Web文本挖掘的研究现状和存在问题的基础上,主要研究了Web文本分类关键技术、常用文本分类方法和基于粗糙集和KNN的混合Web文本分类方法,主要研究工作包括: (1) 介绍Web挖掘和Web文本挖掘的基础理论和相关知识,分析Web文本挖掘和Web文本分类的研究背景、现状和存在的问题。 (2) 对Web文本分类过程中的关键技术:文本预处理、分词技术、文本的表示、权重的计算、特征提取和降维技术,进行详细的分析和讨论;分析和讨论影响分类性能评价的五个因素和几种常用的分类方法质量评价方法。 (3) 讨论几种常用的文本分类方法:KNN分类法、基于VSM的向量距离分类法、贝叶斯分类法、支持向量机分类法和决策树方法等,对这些方法的分类理论进行介绍,分析和比较这些分类方法的优缺点。 (4) 提出一种基于粗糙集和KNN的混合文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。
其他文献
近二十年来,中国企业的并购高潮一浪高过一浪,令人瞩目。相应的,有关企业并购的理论研究也成为热点,不同于国外的是,在体制转轨背景下的中国,一个重要特征就是政府以国有资产
浅析医院亏损的因素及对策天津市河北区王串场医院宋文圣一、政策和宏观管理上原因:1、医疗卫生单位的性质界定不清。回家虽然将医院划归为第三产业,但是目前没有规定相应的具体
随着中国经济的快速发展,人们的生活水平有了显著的提高。人们对生活居住空间有了更高的要求。“健康、时尚、舒适”家居理念得到人们认同。调查中发现,人们在家居方面的投入
在地震资料处理中,地震资料的高信噪比是基础。没有一定的信噪比,高分辨率和高保真就不可能实现;没有一定的信噪比做保障,再先进的处理技术和方法都是枉然。但资料中存在的各
文章基于2007—2017年我国省级面板数据,引入塞尔指数分析我国宏观税负区域总体差异及变化趋势,以及各区域之间和区域内部宏观税负差异及特点。结果显示:我国宏观税负差异主
复杂地表静校正技术是陆上地震勘探中的一项难题,也是制约西部油气勘探的瓶颈。西部的地表条件极为复杂,表层岩性变化非常剧烈。因此,研究该地区的静校正方法,可大大提高地震
信管专业作为大数据最贴近的专业之一,转型培养大数据人才具有必要性和可行性。在信管专业大数据人才培养的现状分析基础上,从大数据人才界定、专业培养方向、课程设置、师资
目的:探索实施"医药分开",取消"以药补医"的方案,缓解群众"看病难"、"看病贵"问题。方法:对浦东新区19所二、三级公立医疗机构药品加成收入等进行分析测算,设计取消"以药补医
三角函数是重要的数学运算工具,三角函数最值问题是三角函数中的基本内容,是近年来高考的热点。这部分内容是一个难点,它对三角函数的恒等变形能力及综合应用要求较高。本文
商业银行流动性风险是指商业银行在不增加成本或资产价值不发生损失的条件下,无法及时满足客户流动性需求的可能性。流动性风险管理在商业银行的经营管理中占有很重要的地位