【摘 要】
:
现今,随着互联网的广泛应用,以互联网电商、手机短视频等为代表的互联网应用得到迅速普及,全球范围内的数据容量正以前所未有的速度快速增长。“数据过剩”但“信息匮乏”的现象日益突出,从海量数据中挖掘具有价值的新知识的需求愈发凸显。面对海量数据,传统知识发现算法存在对硬件需求激增和效率低的问题。本文对现有知识发现算法进行研究,提出基于“粗调与精调”工程思维的知识发现算法(FAMCF),提高海量数据知识发现
论文部分内容阅读
现今,随着互联网的广泛应用,以互联网电商、手机短视频等为代表的互联网应用得到迅速普及,全球范围内的数据容量正以前所未有的速度快速增长。“数据过剩”但“信息匮乏”的现象日益突出,从海量数据中挖掘具有价值的新知识的需求愈发凸显。面对海量数据,传统知识发现算法存在对硬件需求激增和效率低的问题。本文对现有知识发现算法进行研究,提出基于“粗调与精调”工程思维的知识发现算法(FAMCF),提高海量数据知识发现的效率。主要研究内容包括:(1)针对传统Apriori算法处理海量数据所遇到性能低下的问题,在“粗调”阶段提出缩小知识挖掘范围的优化算法(ICRP-Apriori)。该算法采用剪枝技术,进行两阶段剪枝,首先引入项目约束对频繁项集进行剪枝;其次通过卡方检验对候选规则集进行剪枝,剔除非目标规则提高关联规则挖掘效率。实验结果表明,该优化算法在效率上优于传统Apriori算法。(2)为了进一步挖掘更细粒度的知识,提出一个马尔科夫链预测模型的转移矩阵自适应计算方法。该方法将转移矩阵的估计误差映射为预测值的误差,通过评价指标ρ实现转移矩阵的自适应取值和计算,进而得到关联规则关联度的细粒度量化值。(3)提出综合粗调与精调方法的FAMCF知识发现算法。该算法将ICRP–Apriori算法和基于马尔科夫链的预测模型进行融合,针对海量数据实现知识由粗粒度到细粒度的挖掘。结合具体医疗电商实例数据,对FAMCF进行验证。实验结果表明,本文提出的FAMCF算法在性能上优于传统的算法。
其他文献
人身检查是指侦查机关为了收集、保全犯罪行为的证据,而对犯罪嫌疑人、被害人以及证人的身体状态及物理特征进行观察、采样、检验的一种证据取得并干预和侵犯公民基本权利的
数字散斑相关法(Digital Speckle Correlation Method,DSCM)是一种全场变形、非接触式的测量方法,通过图像处理,可以获得被测物体表面位移、应力变化等信息。因其具有对环境要求不高、测量精度高等优势而得到广泛应用。经过几十年的研究探索,其相关理论已经相对趋于成熟,在工程中也得到了很好的应用,为相关科研带来了很大的帮助。鱼皮是一种优质的皮革材料,其微观结构在仿生学上已有
图像融合通过将不同模式下的两幅或多幅图像融合成一幅信息丰富的图像,在尽可多地能保留原始图像信息的同时,增强融合后图像的视觉效果,为后续的视觉体验及进一步的图像处理
农地经营权抵押贷款在发放前重要的一环就是合理评估农地经营权价值。在开展农地经营权抵押贷款时,需要科学、合理地对农地经营权抵押价值进行评估,银行机构以评估的农地经营
固态变压器(Solid State Transformer,SST)作为一种新型的电能转换装置,在智能电网和分布式电源中具有重要的研究价值。受限于常规硅器件的耐压水平,迄今为止,学者们对SST的
随着现代项目管理理念和管理方式更加趋于科学化的发展,人们对现代项目管理有了更加深刻的认识。在现代工程项目管理中,不再局限于工期、成本和质量控制这三大目标当中,如今
核能作为一种可靠,环境上可持续且具有高成本效益的清洁能源备受瞩目。当前,对反应堆安全性的研究已成为了核能发展的第一要素。对事故容错燃料系统的研究开发便是一个提高商
人民币汇率问题一直以来都备受公众关注,人民币汇率的稳定不仅事关我国经济的发展,而且在一定程度上关系着国际经济环境的稳定,然而2015年人民币汇率一改第二次汇率改革以来
随着无线感知技术的快速发展和人机交互需求的迅猛增长,基于Device-free技术的人体行为识别成为研究的热点之一。相对于传统的计算机视觉技术和可穿戴传感技术,WiFi技术不仅可以用来传输数据,还可以以Device-free方式感知周围环境信息。然而,受多径效应以及周围环境影响,基于WiFi信号的行为数据复杂度较高;另外,现有人体行为识别方法需要手工提取特征,较大程度依赖于先验知识。本文以独居老人
农村土地整理是在一定的区域范围内,依照土地整理总体规划的要求,通过采取行政、法律、经济、工程技术等一系列的措施,提高土地利用效率、改善农业生产条件、保护农村生态环