论文部分内容阅读
随着信息技术的发展,如何从爆炸性增长与动态变化的海量数据中获取信息与知识,已经成为了企业乃至国家获得核心竞争力的关键。数据挖掘技术就是为了解决这一问题产生的人工智能技术。但是在股票证券交易的欺诈监控、金融转账的风险控制、传感器检测以及信用卡诈骗的预警等应用场景中提出了更高的实时性要求。针对这些应用场景在上个世纪末提出了数据流的概念。与传统的数据库不同,数据流是连续、有序、无限的,并且数据流上的查询具有很高的实时性要求,通常只允许一次或很少次数的扫描。利用有限系统资源对海量的数据流进行快速处理以获取有用信息,为数据挖掘研究带来了新的机遇和挑战。本文针对网上银行数据流频繁模式挖掘及相关技术进行了研究。重点研究了以下几个问题:现有的数据流模型和数据流频繁模式挖掘算法;金融网上银行数据流的结构特点、数据特征及其数据模型研究;改进Lossy Counting算法提高算法的动态性;利用基于散列表的数据流频繁模式挖掘算法MFS-HT挖掘数据流频繁模式;网上银行数据流数据结构,以及频繁模式挖掘系统设计开发等。本文研究内容和创新工作主要包括以下几个方面:首先,对数据流挖掘及其模型等相关理论进行研究,总结出目前该领域的最新研究成果,通过网上银行数据流的研究总结出网银数据流的概念与特征,提出网上银行数据流除了具备数据流的基本特点外,还具备连续性、多义性、冲突性和海量性等特性。结合网上银行数据流特征,提出网上银行数据流时序轮盘模型。然后,研究分析了现有的数据流频繁模式挖掘算法。基于数据流时序轮盘模型,提出TTLC (Time-series Turnstile Lossy Counting)算法提高了Lossy Counting算法的动态性,另外设计并实现基于散列表的数据流频繁模式挖掘算法MFS-HT,并通过实验证明算法的时空效率优于现有算法。最后,本文将上述算法编码实现,集成到了自行设计开发的网上银行数据流频繁模式挖掘系统当中。并使用模拟数据,对系统进行实验分析与研究。实验表明系统具有较高的准确性和时间效率,对上层决策支持具有一定的指导意义。