粗糙集理论在文本挖掘的分类算法中的应用研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:helppeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,用户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一个日益流行且重要的研究课题。 文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等,其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。 本论文主要探讨了文本自动分类的算法,所作的主要工作如下: 1.描述了文本的向量空间模型,并进行了常用文本分类算法的性能分析; 2.重点研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方法可以自动提取分类规则,比人工建立规则库容易实现得多; 3.为了实现网上文本数据的挖掘,提出将基于规则抽取的分类技术应用到搜索引擎上的设计思路,并证明了该方法的可行性。 基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快。 本论文还提出了一种基于文本自动分类的搜索引擎的设计。由于目前搜索引擎的检索结果列表通常过于庞大,给用户逐个浏览寻找相关的结果带来极大不便。本文提出在搜索引擎的用户接口与检索器之间接入文本分类器,由它对检索结果进行联机分类,将其划分为若干个具有明确主题的簇,大大方便了用户查找跟查询要求相关的文档。 最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。
其他文献
目的:探究胺碘酮结合美托洛尔静脉注射治疗快速心律失常的临床效果。方法:选取2015年5月至2016年5月间我院收治的快速心律失常病患90例作为研究对象,根据治疗方式分为对照组和联
IP电话就是通过Internet/Intranet等互联网络来实时传输语音信息的技术,尤其是随着互联网络的不断发展及家庭宽带接入的普及,利用IP网络来传输语音成为了最近几年的热门话题。本
现代化的工业生产在提高生产效率、降低成本、节约能源和人力等方面有很大的优势,然而,设备故障所带来的损失也将是成比例增加的。尤其是象炼钢转炉这样的设备,一旦在生产过程中
目的:随着时代的发展,我国的医疗卫生水平逐渐提高。现阶段,人们越来越重视患者治疗期间的护理问题。就肝病患者而言,医院感染是威胁患者安全的主要因素,科学合理的护理方式可以降
目的:现阶段,西药是一种十分重要的治疗手段。在西药治疗中,用药安全性是人们非常关注的问题。本文主要围绕这一问题展开了相关研究,在研究过程中选择的研究对象是230例出现西药
该文以自适应通信技术为研究内容,探讨了基础理论和工程实现两方面的部分关键技术.在基础理论研究方面,我们重点研究了自适应Turbo TCM编码调制技术;在工程实现技术方面,由于
LED以其高光效、长寿命、全固态和无汞环保等优势在照明领域得到日益广泛的应用。与传统照明光源相比,它的另外一大特点就是光电响应速率快,可达到几十MHz的响应带宽,因而也
目的:分析蒙医药治疗慢性胃炎的临床疗效。方法在我院治疗的56例慢性胃炎患者,分为治疗组和对照组,对比分析两组临床疗效。结果:治疗组临床疗效总有效率为92.8%,与对照组的78.6%比
该论文是课题"标准清晰度数字电视机顶盒"的组成部分.该课题的整体任务就是研制和开发符合DVB-C标准的标准清晰度数字电视机顶盒.该论文主要涉及到标准清晰度数字电视机顶盒
目的:总结小儿高热惊厥的急救措施与护理体会。方法:回顾性分析我院2014-2015年收治的123例高热惊厥患儿基本临床资料。结果:护理后家属焦虑评分为(16.4±2.46)分明显低于护理前(38