基于粗糙集理论的文本分类技术研究

被引量 : 1次 | 上传用户:theonezhaoq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指根据所提供新文本的内容在给定的文本分类体系中确定所属的文本类别进行自动分类的过程。目前常用的文本分类方法有:KNN算法、Rocchio分类算法、决策树算法和朴素贝叶斯算法。粗糙集理论通过直接对数据进行分析和处理,探知其内在的知识和规律,是一种能有效分析不确定知识、进行数据挖掘和知识发现的数学工具。将粗糙集理论应用于文本分类是目前的研究热点之一。其研究的重点是知识约简理论及其应用。知识约简理论能在分类能力不降低的情况下获得分类问题的决策或规则。利用知识约简理论对信息表中属性信息进行处理,且在不影响分类能力的情况下去除多余信息的过程即是属性约简的过程。决策表的属性约简是基于粗糙集理论的文本分类技术最重要、最核心的部分,而属性约简的过程又分为属性重要性排序和得到属性约简集两个部分。本文重点研究将粗糙集理论的知识约简理论应用于文本分类的核心内容——属性约简。首先,对训练文本集进行预处理,通过特征选择、抽取和文本描述,得到一簇以特征向量来表示文本及文本类别的集合;然后,利用得到的信息构建一个决策信息表;最后,利用知识约简理论对决策表属性信息进行处理,在不影响分类能力的情况下,去除多余的信息,得到分类规则。本文主要的创新工作如下(1)对粗糙集理论中近似算子计算方法进行改进。一方面,将粗糙集理论中等价关系泛化为容差关系或包含关系;另一方面,从基本知识粒度的构造和知识的表示方法上,研究基于邻域系统和粒度两个方而的上、下近似算子。(2)在文本分类和粗糙集理论的基础上,提出综合特征选择和粗糙集理论的属性重要性评价标准。在文本分类过程中,特征选择、提取和文本描述产生的特征项的相关度和粗糙集本身的评价标准进行结合,使约简后的属性集更具重要性、表现出更好的文本识别率。并通过对粗糙集理论中属性约简算法的研究,提出了一种改进的属性约简算法,并将其运用于文本分类技术中。数值实验表明,运用这种文本分类技术对小规模文本集能够得到更好的分类结果。
其他文献
按照高中生物新课程标准的要求,高中生物学科需要把课堂教学改革作为全面提高学生的学习自主性、全面提高学生综合素质的必经之路。近几年来,我国高中生物教学中开始采用导学
湄公河作为一条发源于中国,流经中南半岛五国的国际性河流,流经区域不仅富有丰富的自然资源,而且也是域内国家交通运输的重要途径,在业洲乃至国际上都具有重要的战略地位。自
政府与企业在经济和社会领域可以形成相对密切的伙伴关系。在经济领域,政府为了发展一地经济常对具有战略前途的企业进行扶持,通过财税、信贷等方面的政策倾斜,帮助企业迅速做大
在数字化网络时代背景下,信息技术已经渗入到每一领域,每个企业只能紧跟步伐,加快信息系统建设,赢得发展先机,出版社也不例外。而和其他领域企业相比,出版社信息系统建设普遍滞后,并
技术创新是一个国家或地区实现经济快速发展的主要动力,也是企业、高校、科研机构和政府实现联盟式合作促进产业升级的重要工具。我国技术创新经历了建国之初以计划经济体制
如何有效处理和合理解决医疗纠纷一直是我们社会关注的一个焦点。医疗行为具有高风险性、探索性、技术受限性、公益性的特点。与此相伴随的医疗纠纷具有专业性强、信息严重不
产业研究院是推动高校发展,促进高校科技与经济结合的新方式,也是提高企业自主创新能力,建设国家创新体系的重要手段。产业研究院具有综合性、开放性和整合性的特点,通过对具
推进草原法治化进程,是保护草原生态环境的重要工作任务。在草原生态保护过程中,存在发展草原经济与草原生态保护的失衡、牧民生产生活与草原生态保护的失衡、草原执法监督与
近年来,急性缺血性卒中(acute ischemic stroke,AIS)已经成为我国第一位致残性和致死性的疾病,发病率逐年上升,且发病年龄有年轻化趋势[1-2]。在时间窗内开通病变血管,实现缺
检察机关查办职务犯罪涉及的部门多见于工商、税务、海关等行政部门和行政执法机关。随着法律对社会调整功能的加强和法制权威的逐步确立,司法机关在规范秩序、定分止争等方