非监督知识发现过程中若干关键问题研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:iobject
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以计算机和通信为代表的信息技术得到迅猛发展,各个行业产生并累积了大量数据,迫切需要使用知识发现方法从中挖掘出有价值的新颖知识。目前的知识发现研究中,传统的线性预处理技术如PCA、CMDS等方法不能有效的处理非线性、强相关的高维数据,有较大的应用局限性;在数据挖掘过程中,基于密度的聚类方法往往存在着全局密度阈值的限制,对输入参数较为敏感等缺陷。本文针对当前研究中存在的问题,分别研究并提出了相应的解决方法,最后研究了这些方法在高维文本处理中的应用。针对数据预处理问题,本文提出了一种新的流形学习方法——可预知增量式嵌入PrePIE算法。该方法将全局优化方法和局域自组织原理相结合,在局域优化嵌入的基础上逼近全局优化的流形重构质量,从锚点集选择方法、锚点集嵌入方式、全局点集嵌入方式三个方面提高了低维嵌入流形的重构质量,提高了流形低维嵌入的稳定性和可用性。在数据挖掘阶段,本文针对当前基于密度的聚类知识发现方法存在的全局密度阈值限制,提出了基于局域密度分布自适应调整邻域半径的算法CABDET。该算法首先确立了簇内对象之间的邻接关系,通过考察父节点的局域密度状况动态调整当前节点的邻域半径,反复寻找各自的子节点,直到不能找到新的子节点时停止。CABDET算法不受全局密度阈值的限制,能够发现任意形状的簇,对参数的敏感性弱,能有效处理噪音数据。然而,CABDET算法存在执行时间长和小参数设置下的簇分裂现象。对此,本文又提出了一种基于局域计算的层次化密度树聚类方法LOCHDET。该算法通过预先指定局域计算系数将对象之间的相似性计算从全局转换到局域,大幅度提高了算法的执行效率,并对稀疏的相似矩阵实现了基于行的压缩。实验结果表明,在二维正态分布的测试集上,LOCHDET算法对CABDET算法的时间加速比在6~8之间。此外,LOCHDET算法采用层次化的聚类方法,将满足一定条件的簇合并,显著提高了聚类质量,解决了CABDET算法中存在的簇分裂现象。本文讨论了LOCHDET算法的模式发现能力及模式评估问题,并将数据预处理方法PrePIE和数据挖掘方法CABDET应用在具有高维特征的标准文本测试集上,研究了以F-measure值作为客观兴趣度度量的实际应用效果。实验结果表明,PrePIE方法能够有效的处理非线性高维的文本数据,提高聚类质量;CABDET方法可以发现多种聚类模式,取得了明显优于DBSCAN的聚类效果。
其他文献
模型检测作为一种有限状态系统的自动化验证技术已得到广泛应用,最近该技术在规划和多智能体系统(MAS)等人工智能领域的应用也越来越受到重视,MAS领域强调智能体的自治性和推理
禽传染性支气管炎病毒是归属于冠状病毒属的没有DNA阶段的正义单链RNA病毒,以极高的死亡率引起禽呼吸泌尿性疾病的广泛流行,每年都给家禽饲养业造成巨大的经济损失.因此开展
最近几年来国外基因组(基因网络)系统逻辑行为的研究新进展——基于有限状态自动机模型的方法,针对该方法的局限性,提出了一种基于时间自动机的基因网络模型,以描述网络行为的时间
在现行高中教材中,利用两直线夹角公式求三角形的内角时,教材是根据已知条件画出这个三角形,然后根据图形来确定3个内角的始边与终边,即确定内角是“谁到谁”所成的角,依公式tanθ
给出了东风5型内燃机车主发电压电流的一种采样模拟电路,叙述了其工作原理、试验数据及应用结果,采用该模似电路的样机已成功地应用在微机恒功励磁综合试验台上,较好地改善了其测
非线性伺服问题或非线性输出调节问题指的是设计反馈控制律使得非线性系统的输出渐近地跟踪给定的参考信号,消除输入干扰的影响,且能保证闭环系统的内部稳定性。在过去的几十年
近十年来,随着非线性理论的迅速发展,非线性时间序列分析方法在许多领域得到了广泛的应用和研究。受此启发,作者尝试将这些新发展起来的信号分析和处理方法用于对蕴藏在表面肌电
本文在叙述了机器人技术的发展历史、目前的研究状况以及未来的发展趋势的前提下,结合弯曲木弯曲加工技术的现状,提出了弯曲木加工机器人控制系统的总体设计方案。并对弯曲过程
环境中约99.8%的微生物不能用常规的微生物学方法培养,这样就使得绝大部分微生物资源的开发利用受到制约,而宏基因组克隆技术的产生则克服了对不可培养微生物研究的困难。到目前
现代调度问题往往都是NP完全问题,具有高复杂、动态随机等特性。本文主要研究内容为基于约束的现代调度,即运用约束程序设计方法来求解现代调度问题,从而拓展了约束程序设计