无偏散度的非参数算法在事件序列模式挖掘中的优化研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:qq664374004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类科学技术的进步,记录事件发生的时空事件数据越来越丰富,基于事件类型的时空序列模式挖掘研究在诸多领域有着广泛应用。由于领域中的先验信息未知,参数模型会对模式匹配精度造成影响。此外,由异常数据表征的事件异常模式通常发生于一定时空范围内,考虑数据属性间相关性且适用于长度变化序列的时空异常区间检测方法是发现时空事件序列模式的一个重要组成部分。针对事件序列模式挖掘的异常检测和触发模式匹配两方面问题,本文提出无偏散度的非参数算法(UDNT)。算法主要分两个部分,异常检测阶段:无偏散度异常检测子算法(UKLD)首先定义时空时间序列的异常区间,时延嵌入后将检测区间和剩余区间估计为高斯分布,通过累计和加快高斯分布的参数估计过程,最后使用无偏KL散度计算区间之间的差异水平,采用非极大值抑制方法得到时空异常区间。触发模式匹配阶段:非参数触发子算法(NPTP)首先基于多变量Hawkes模型,用非参数条件强度函数约定触发关系,随后迭代计算触发关系的条件概率,最后由秩选择得到显著的事件类型触发关系并将概率中值的均值作为其显著性值。将两个子算法结合来处理时空事件序列模式发现问题,对原始数据先提取重要异常部分再进行后续模式挖掘过程能较好适用于多种应用场景。为验证算法有效性,首先选择通用的城市事件合成数据集和来自CHICAGO DATA PORTAL中的真实事件数据集作为仿真数据集,在Matlab上进行仿真验证;其次在合成数据集中将子算法UKLD与RKDE、HOT SAX在检测序列长度为定值和取值区间的情况下对比算法的精度;最后在真实数据集中对比采用UKLD提取异常后的数据用于触发关系挖掘算法NPTP、CSTP和SSTS的性能,并且,在不同离散化级别下对比NPTP的计算精度。仿真结果表明,对于长度不同取值或任意取值区间,UKLD在平均精度上有较大提升,说明UKLD算法能更精准地检测异常;对于三种离散化级别,NPTP的挖掘性能优于CSTP和SSTS,且采用由D函数计算的最佳离散化级别使NPTP的精度最高;本文提出的UDNT算法应用于时空事件序列模式挖掘中,能保证较高的事件触发关系识别精度。
其他文献
铝型材作为工业型材的重要制品,工件缺陷检测是其生产流程中的重要工序,而表面细微缺陷检测作为工件缺陷检测的重要工作,影响着铝型材的实用性、外观性与舒适性。由于细微缺陷图像表征性差,样本难以采集,导致了样本空间的不均衡与细微缺陷的难以识别问题。然而目前并无行之有效的方法对不均衡样本空间的表面细微缺陷完成识别。为提升不均衡样本空间细微缺陷的识别精度,本文以铝型材表面缺陷作为研究对象,对铝型材表面缺陷样本
过程能力分析是六西格玛管理中一种常用的质量改进方法。根据过程能力指数进行过程能力分析,根据分析结果可以了解生产制造过程满足生产要求的程度,然后根据过程指数的不同可以给出相应的改进措施。因此,过程能力指数是进行过程能力分析的重要指标。随着机器视觉系统的快速发展及在各个领域中的广泛应用,许多产品信息更多的是以图像数据的方式展现。与人工测量相比机器视觉系统具有避免因疲劳导致的误差增大、避免人为的感性影响
发动机制造过程涉及到的制造环节众多,工艺过程十分复杂,大幅提升了制造过程溯源的难度和溯源技术的要求。目前,发动机制造过程质量溯源面临着溯源公信力不足、数据中心化存储隐患、信息记录存储安全难以保障的问题,导致生产制造的汽车发动机出现了各种质量问题,给用户与车企带来了巨大的损失。针对上述问题,本文将具有去中心化、防篡改、易溯源、自信任等特点的区块链技术引入到发动机制造过程质量溯源体系中,提出了一种基于
薄膜晶体管液晶显示器(Thin Film Transistor-Liquid Crystal Display,TFT-LCD)凭借其体积小、功耗低和响应速度快等优点在新型显示器行业占据越来越大的市场份额,制造商之间的竞争也变得尤为激烈。因此,提高产品质量和生产效率成为制造商保持优越性的重要因素。然而,TFT-LCD制作过程中缺陷种类较多,采用人工目视检测方法具有稳定性差、耗时长、检测标准难以统一等
元谋县位于云南省中北部,北接四川省攀枝花。境内植被覆盖度较低,山地与半山地区域占比较大,区域内发生的地质灾害次数较多,使得当地人民的生命财产安全饱受威胁。地质灾害风险性评价不仅考虑地质灾害发生的可能性,还考虑到地质灾害发生后会造成的损失程度,这样做出的评价结果,可以为当地发展规划提供一定的理论依据。本文以元谋县为研究区域,通过野外实际调查及收集资料得到元谋县地质条件及地质灾害发育特征。本文选取了坡
如今,随着部分劳动密集型产业向越南的迁移,中国和越南在政治经济领域的交流合作愈发密切,及时把握越南新闻媒体的舆情及观点表达对中越政治、经济领域的交流有着重要的影响。由于语言障碍,在网络上获取的越南语新闻很难去人工理解和分析其舆情观点。同时可以发现汉越可比语料间内容关联度较高,主题高度相关,主题词有部分区别,可在双语语料间共享使用。基于这种特点,本文研究了汉越可比新闻观点句抽取和情感分类方法,在与越
随着工业机器人和服务机器人领域快速的产业发展,移动机器人定位技术在广泛的行业应用中引起了众多关注,在室内摄影测量相关的同步定位与制图(Simultaneous Localization and Mapping,简称SLAM)在该领域中的研究最为火热。采用室内摄影测量技术的视觉SLAM算法大都基于特征点进行数据关联和后端优化,但在某些光照较低和弱纹理的场景下,由于特征提取数量的不足,导致SLAM系统
随着三维测量设备的更新换代和计算机数据处理技术的快速发展,三维扫描技术能够快速准确的获取物体表面的点云数据信息。基于多线激光的三维扫描技术,因其适用环境广泛、设备安装方便、易于商业化开发等优点,被广泛地应用于点云数据的采集工作中。初始的点云数据需要通过点云数据处理技术进行加工,提取点云数据中各种不同的特征信息,才能满足人工智能、逆向工程、工业自动化等各个领域的应用需求。本文针对基于多线激光稀疏点云
近年来,图像融合在信息融合,计算机视觉和机器学习等新兴科技领域中发挥着至关重要的作用。在一些机器视觉任务中,现有的成像传感器设备仍然存在技术上的局限性,使得摄像机的镜头只能聚焦在自然场景中特定景深或一定距离内且具有高对比度和清晰度的物体上,否则目标就会变得模糊。因此,为了可以精确地评估输入图像的模糊度,识别出尽可能多的目标和细节信息以及高清晰度区域,并将这些有效的数据结合起来生成信息量更加丰富的图
随着我国智能制造发展的趋势,人机智能交互成为核心任务之一。在人机智能交互过程中存在文本数据的读取和传递,这些数据通常包含大量长文本信息。为了高效地进行关键信息传递和交互,需要筛选和总结其中的重要内容,使用的方法称为生成式文本摘要提取。然而,现在文本摘要的方法主要用在短文本摘要提取,但是对长文本还鲜有研究。文本的长度影响网络模型生成摘要的质量,长文本包含更多的信息,扩大输入文本长度,能够获得较完整的