全局和局部相结合的数据挖掘方法及应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wudingyong2009

【摘要】

：

数据挖掘经过十几年的蓬勃发展，产生了丰硕的成果。各式各样的数据挖掘理论被提出与采用；各式各样的数据被挖掘：各种各样的数据挖掘平台被不断地开发。本文针对全局和局部挖掘的

【作者】

：

王金龙

【出处】

：

浙江大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘机器学习全局局部粒度计算贝叶斯网络文献分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘经过十几年的蓬勃发展，产生了丰硕的成果。各式各样的数据挖掘理论被提出与采用；各式各样的数据被挖掘：各种各样的数据挖掘平台被不断地开发。本文针对全局和局部挖掘的集成问题进行了分析，重点研究了基于局部信息的全局数据挖掘方法及应用。首先，根据数据挖掘的过程，我们将该问题的研究划分成三个阶段，即利用粒度数据表示进行挖掘，利用局部信息改善全局挖掘的效率和利用局部模式结果获得全局数据理解，并对每个阶段进行了研究，最后将所研方法应用于文献数据挖掘中。本文所做的主要工作如下：(1)在数据表示上：提出了基于数据粒度表示的两个高效挖掘算法GB-FIM和GrC-FIM。本文针对隐私保护造成数据扭曲使得挖掘效率下降的问题，我们提出了基于数据粒度表示的粒度位向量挖掘算法GB-FIM和粒度推理计算挖掘算法GrC-FIM。这两个挖掘算法分别利用数据的粒度表示和粒度计算推理技术挖掘了扭曲数据集。GrC-FIM算法在GB-FIM的基础上利用粒度推理的方法简化了支持度计算。实验结果表明这两个算法的运行效率较传统算法提高较大，特别在稠密数据集上，利用粒度推理技术的方法不仅能够提高运算效率，而且能够提高挖掘的准确性。(2)在结果精简上：提出了基于支持度和模式相似性的混合距离模式压缩算法。本文针对闭合序列模式数量较多影响理解的问题，研究了对其压缩的方法，方便了信息的表达。我们针对基于模式支持集进行聚类方法的缺陷，提出了将支持度和序列模式本身相结合的混合距离方法。利用此距离，可以高效对闭合序列模式进行聚类，且取得很好的聚类效果。利用从聚类中总结出精简偏序的方法可将模式进行精简表示。试验结果显示本算法能够在效率与准确性之间得到较好的折衷，获得理想的结果。(3)在挖掘过程中：提出了基于启发式搜索的全局偏序改进算法和基于传递闭包的动态贝叶斯网络构造算法。利用局部模式能够反映数据的局部特征，从而改进全局挖掘算法，提高其效率。首先我们利用序列的局部频繁特征改进了全局偏序挖掘算法，在保证准确性的前提下提高了挖掘效率；然后，我们针对全局偏序表达容易丢失局部信息的问题，提出了基于传递闭报的动态贝叶斯网络方法来反映序列数据的特征，该算法能够在不增加复杂度的前提下更加准确地对序列进行构造。(4)在应用上：研究了基于文献数据理解主题演化和影响的问题。当前，随着数字图书馆技术的发展，大量文献数据为研究者进行研究工作提供了便利，但同时使得如何更加快速和准确地理解领域的发展和演化变得困难。针对这一问题，我们首先利用本文所提出的基于传递闭包的动态贝叶斯网络构造模型分析了研究者的出版文章序列，获取了对领域演化的理解；然后，我们运用模块化网络构造技术研究了主题的影响，通过线性分段技术获得了主题强度的趋势信息，通过模块化网络的全局模型构造分析了主题的影响关系。

其他文献

传统文化中对举格式的分类

本文研究的对举格式是指由两个字数相等或相近、结构相同、语义相反或相成的两部分构成，即对举格式由前后两个分句构成，不能单独使用，否则意义不能自足，这种对举结构的意义不是组

期刊

对举格式形式标记

盐酸替罗非班对行PCI的STEMI患者临床疗效及NT-proBNP水平影响分析

目的:分析盐酸替罗非班对行经皮冠状动脉介入治疗(PCI)的急性ST段抬高型心肌梗死(STEMI)患者临床疗效及NT-proBNP水平的影响。方法:收集本院2014年1月-2016年12月行PCI的STEM

期刊

急性ST段抬高心肌梗死经皮冠状动脉介入术盐酸替罗非班氨基末端脑钠肽前体STEMIPCITirofiban HydrochlorideNT-proBNP

PICC诱发心律失常1例护理

经外周静脉置入中心静脉导管（PICC）是肿瘤病人常用的给药方法，但置入后可发生机械性静脉炎、血栓性静脉炎、感染、血栓、导管破裂、导管堵塞等并发症，少见心律失常的报道。我科20

期刊

外周静脉置入中心静脉导管(PICC)心律失常护理

自由市场和国际经济中政府的角色

本文研究了政府在国内和国际经济中应扮演的角色、考虑的因素、政府介入的政策与机制等,分析了比较优势、税收结构和支出、资本控制、国际贸易、国际组织和国际谈判等政府介

期刊

政府介入自由市场国际经济比较优势多元化

基于主成分分析法的炼油企业绩效评价

本文从介绍炼油企业指标评价体系入手，以国内原有指标体系为基础，借鉴国外现行的评价指标体系，建立了一套既符合中国炼油企业特点又符合国际惯例的炼油企业绩效评价指标体系。以

期刊

炼油企业指标体系主成分分析绩效评价

青岛市大陆基岩海岸宜林地立地类型的划分

青岛市大陆基岩海岸宜林地立地类型的划分王德安，郭仕涛，孙大庆，窦永芹，宋修明（青岛市林业局，２６６００２）青岛市地处山东半岛西南部，全市大陆海岸线总长度７３０ｋｍ，其中基岩海岸线长３１５ｋｍ。受自然条件和人为破

期刊

立地类型王德安宜林地基岩海岸青岛市

浙江品牌强省战略建设的对策研究

品牌建设是浙江省“创业富民、创新强省”的重要内容，也是浙江省实现制造业再一次腾飞的重要战略。通过对浙江品牌建设中的成功经验以及存在的不足等方面进行分析，并分别从政府

期刊

品牌区域品牌产业集群跨行业品牌组织

目的:对比分析拉米夫定和恩替卡韦治疗乙型肝炎相关慢加急性肝衰竭(acute on chronic liver failure,ACLF)的效果及对白细胞介素-10(IL-10)、干扰素-γ(IFN-γ)的影响。方法:

期刊

拉米夫定恩替卡韦HBV慢加急性肝衰竭IL-10IFN-ΓLamivudineEntecavirHBVACLFIL-10IFN-γ

MULTIPLE CENTER d—pπ ORBITALS AND CHARGE TRANSFER OF HETERONUCLEAR

期刊

多中心d-pπ轨道立方烷镍电荷转移杂核簇合物钼硫锡铜钨锑

江西东乡一中

东乡一中建校历史悠久,清道光6年建汝东书院,民国28年创建东乡县立初级中学,至今已有近百年历史,1980年被评为江西省重点中学。著名书法家舒同挥毫寄情＂龙山师水总难忘＂,中国工

期刊

江西中国工程院院士省重点中学建校历史初级中学百年历史人才辈出东乡县

全局和局部相结合的数据挖掘方法及应用研究

与本文相关的学术论文