面向不确定数据的频繁模式挖掘方法研究

来源 :山东师范大学 | 被引量 : 2次 | 上传用户:bccom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代悄然到来,数据挖掘技术正面临着前所未有的机遇和挑战。作为数据挖掘领域的重要研究课题,频繁模式挖掘和关联规则发现受到了持续而广泛的关注,并且涌现了大量经典理论、高效算法和新兴应用领域。挖掘频繁项集,是关联规则发现中的关键技术和步骤,并决定了关联规则的总体性能,目前已广泛应用于市场销售、文本挖掘、公众健康等各个领域。在实际应用中,由于技术手段有限、测量设备误差、通讯开销限制和用户隐私保护等诸多因素的影响,获得的原始数据往往存在不确定性。同时,受到主客观条件的限制,频繁模式挖掘过程中也会带来一系列的不确定性,这些不确定性在挖掘过程中不断传播和积累,可能导致挖掘出的知识与真实结果之间存在较大差距甚至毫无意义。而传统的挖掘方法却未将这些因素考虑进去,只简单地认为挖掘出的知识一般都是有用的和确定的,致使传统的频繁模式挖掘方法在处理不确定数据时面临着得到的挖掘结果异常却难以解释的窘态。这显然是不科学和不妥当的。因此,针对不确定频繁模式挖掘的研究显得尤为重要,并日益受到广大研究人员的关注。本文主要针对两类典型的不确定性数据,即概率数据和容错数据,进行概率频繁模式挖掘和近似频繁模式挖掘的研究,并应用在中医药诊疗数据环境下,实现基于不确定数据的高效频繁模式挖掘。本文的主要工作和成果总结如下:1.针对概率数据中垂直格式的数据表示形式,提出了一种基于Eclat框架的概率频繁项集精确挖掘算法(UBEclat)。首先,对于采用垂直数据格式的概率数据,本文设计了一种适用于Eclat框架,旨在提高算法执行效率的双向排序策略,然后基于概率频度的定义,提出了采用分而治之方法的概率频繁项集精确挖掘算法。在基准数据集和真实数据集上的对比实验表明,UBEclat算法能够依据支持度的概率分布,准确挖掘出所有概率频繁项集。这为有效解决概率频繁项集的精确挖掘问题提供了新的思路。2.针对概率频繁项集精确挖掘算法执行效率较低,运行时间过长的问题,基于概率数据的可能性理论,提出了一种高效的概率频繁项集近似挖掘算法(NDUEclat)。结合Eclat框架和近似方法的优势,NDUEclat算法采用分而治之的方法,应用大数定律优化挖掘过程,改进了频繁项集挖掘的效率。在基准数据集和真实数据集上的多组对比实验也验证了该算法具有良好的挖掘性能。目前,这也是第一个基于支持度的概率分布,在垂直数据格式的概率数据中高效挖掘不确定频繁项集的近似算法。3.针对NP-hard类的容错频繁模式挖掘问题,提出了一种将容错数据库映射为事务信息系统,基于粗糙集理论挖掘近似频繁模式的新方法。依据挖掘出的频繁项目确定决策表中的决策属性;基于粗糙集理论中上近似和下近似概念,确定近似频繁模式的匹配程度。在基准数据集和真实数据集上进行的对比实验证实了该方法在挖掘的准确率指标上,比以往方法有更好的性能表现。显然,基于粗糙集理论的近似挖掘方法为有效提高近似频繁模式挖掘的准确性和适用性提供了新的思路。4.以减少敏感参数设置的影响、提高挖掘效率的同时保证实际挖掘结果的可用性为目的,研究了基于容错数据的粗糙集理论,提出了一种挖掘近似频繁闭模式的新模型。新模型主要由三部分组成:用聚类算法完成数据预处理;对同一类中的事务依据粗糙集理论进行属性约简生成核模式;将核模式作为初始种子构建等价类,用分而治之的方法挖掘近似频繁闭模式。在传统中医药数据集上的实验结果表明,该模型可以更精准地表达近似频繁模式,有利于实现基于中医诊疗应用的知识发现。综上所述,本文针对概率数据中如何提高频繁模式挖掘的效率、如何屏蔽容错数据中因数据表达不准确而对挖掘结果造成的影响以及如何确定容错率以获得有意义的挖掘结果等问题,从数据库的特点和数据的表示方式、模式挖掘的类型、具体挖掘技术的选择等几个不同的角度提出了相应的解决方案,并通过实验验证了它们的有效性。本文工作可以为今后面向不确定数据的频繁模式挖掘研究提供帮助。
其他文献
目的:探讨心功能对血运重建治疗急性心肌梗死(AMI)多支血管病变(MVD)患者预后的影响。方法将152例行经皮冠状动脉介入(PCI)治疗的AMI合并MVD患者,根据左心室射血分数(LVEF)值分为正常组
本文介绍了南通大学附属医院处置“眼用全氟丙烷气体”事件的工作实践和体会。
<正>肝肾隐窝又称肝肾间隙或Morison间隙,是肝脏与右肾、右肾上腺及下腔静脉间潜在的间隙。肝肾隐窝巨大占位性病变并不少见,右肾上极、右肾上腺和肝脏右
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
目的观察参加益智活动对老年人认知功能的影响。方法在健康体检人群内进行抽样横断面调查和纵向随访研究。益智组92例(年龄大于或等于60岁),经常参加下列活动中任何一项或多
目的:检测Kv3.4蛋白和Kv3.4 mRNA在大鼠颊黏膜癌变过程中的表达水平。方法采用免疫组织化学(SP)法及RT‐PCR技术检测4NQO诱导的58只SD大鼠颊黏膜癌变各阶段组织中Kv3.4蛋白和Kv3.4 m
在明代,福州林浦林氏家族以“七科八进士,三代五尚书”闻名于世,是著名的官宦世家、文学世家。林炫是正德、嘉靖年间福州诗坛的重要诗人,又是林浦林氏家族在文学领域的中坚代
细胞外基质生物修补材料属再生医学领域的支架材料,在外科领域正得到越来越多的应用,相关技术发展至今已经历三代,从最初的结缔组织诱导再生而实现解剖层面的修复而逐步提高至组
目的 通过对哮喘小鼠进行研究,建立其气道重塑模型,同时运用1,25-二羟基维生素D3[1,25-(OH)2D3]进行干预,哮喘小鼠脾脏内及外周血髓系抑制细胞(MDSCs)水平及气道壁厚度的改变进行
<正>虽然冠状动脉造影是冠心病诊断的金标准〔1〕,但心电图仍然是诊断冠心病最方便、经济、无创的方法,也是诊断冠心病重要的依据之一。本文拟比分析对冠心病患者心电图和冠