论文部分内容阅读
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此如何对非结构化数据进行挖掘成为了一个重要的研究课题。在常见的非结构化数据如文本、图象、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而在数据挖掘领域具有较高的商业价值。本文以文本数据为研究对象,对文本关联分类进行研究,主要包括文本特征提取、选择、表示和文本关联分析、文本关联分类,并提出更有效的文本关联分类算法。本文的研究工作和创新内容包括以下几个方面:①特征选择、向量空间表示方法研究目前文本分类中常用的文档表示方法主要有布尔矩阵、词频矩阵等表示形式。采用布尔矩阵表示文档向量,优点在于表示方式简洁且计算效率比较高,缺点在于只是考虑特征在文档中出现与否会使得表示不够精确;而使用词频向量表示虽然表达比较精确,但简洁性相对较低,生成向量空间需要更多的计算。本文提出特征权重阈值的方法来更加准确的表示文本向量空间,从而改善文本分类质量。②文本关联分析的研究文本关联分析中,由于文本集具有高维稀疏的特性,采用Apriori等传统的关联挖掘算法效率比较低,而采用Fp-growth等算法又会使得其挖掘Fp-tree时递归的次数比较多,另外,传统的关联挖掘需要自己指定最小支持度阈值,这在文本关联挖掘中需要反复摸索实验,不好确定。针对以上不足,本文提出根据文本训练集规模动态调整与COFI-tree压缩结构相结合的DL-COFI算法,该算法可以先根据训练文档规模动态确定L的值,再利用COFI算法进行挖掘,动态确定全局最频繁的L个规则。③综合置信度与支持度对未知文档分类传统的CBA、ARC等分类算法对修剪策略与分类预测均考虑得不够全面,在修剪策略方面,很多方法均不能取得满意的效果,本文结合了两种常用修剪策略的优点,提出超规则-J-Measure算法;在对测试文档分类方面,CBA只考虑覆盖样本的第一条规则,ARC只考虑计算覆盖文档某个类的置信度之和,虽然有综合考虑置信度与支持度的研究,但却忽略了二者之间的权重关系。本文权衡置信度与支持度之间的比例关系,提出了两个影响因子进行综合计算类区分度的CDD算法。最后,利用提出的关联分类算法与原有的传统关联分类算法相比,能够得到较好的查全率、查准率、F1值,达到了提高分类质量与分类效率的目的。