论文部分内容阅读
数据挖掘和知识发现是从大规模数据集中发现潜在的,有价值的知识。随着计算机软硬件以及数据采集技术的发展,数据集的来源趋于更加多元化。数据集形式从数据文件发展到现今的各种数据库,数据流等。在进行数据挖掘的同时,有关保护源数据持有人隐私和数据库中的敏感知识的研究成为当前数据挖掘领域的重要紧迫性研究课题。本文在分析隐私保持数据挖掘方法研究现状的基础上,引入同态加密机制,提出数据干扰后重构技术,理论分析结合试验,针对传统的大规模数据库和新型的数据流应用领域,包括关联规则挖掘、序列模式发现、协同过滤推荐、数据流知识发现,提出相应安全、高效的隐私保持数据挖掘算法。在大规模数据库中进行关联规则和序列模式发现是传统数据挖掘研究领域重要的两个研究课题。相关的隐私保持技术研究是当前的一个研究热点。现有隐私保持协议存在安全协议不够严谨、协议实现复杂等缺点。本文就此展开了相关研究。在引入同态加密机制后,重新对整个数据发现算法进行了设计,得到隐私保持关联规则发现算法,隐私保持序列模式算法,并且把算法从两方向多方扩展。隐私保持技术研究是进行安全数据挖掘活动的技术基础。除了将同态加密理论运用于隐私保持数据挖掘,对于源数据进行干扰,以保持数据隐私,也是一个有实际意义的重要方法。数据干扰是对原始数据进行修改,删减,以隐藏真实数据,保护数据安全。本文提出了仅添加干扰,不改变原始数据值的干扰方法,在分析了干扰对支持度的影响概率后,重构干扰前频繁序列模式支持度,有效地保护了原始数据隐私。最后利用试验确定干扰的具体参数,取得了很好的效果。@@@协同过滤技术是近几年数据挖掘研究领域出现的智能数据处理方法,是电子商务等领域的核心技术。协同推荐系统收集具有共同信息需求的人们对给定领域的项目的评价,通过处理这些信息,为不同用户提供对用户未知项目的评价预测。本文提出基于代理的协同推荐技术,充分考虑了最大限度的利用系统收集的知识,利用C-Means聚类得到合成的代理代替传统算法中的邻居,为用户提供推荐,显著地提高了协同推荐的预测精度。在此基础上,利用安全多方计算,提出了隐私保持协同过滤协议,从而使得协同过滤过程保护了用户的隐私。数据流是一种近年出现的数据应用形式。不同于传统建模中数据持久性的特点,数据流是瞬时的,广泛存在于电信、金融等领域。数据流数据挖掘的相关研究目前主要集中于分类,频繁模式发现。本文首次独立提出了对数据流进行序列模式挖掘算法,提出LSP-tree结构来概要归纳在线数据流,进而采用位图算法,时间倾斜窗口技术挖掘该概要结构的序列模式。在此基础上,结合我们提出的安全多方计算协议,利用同态加密,提出了在数据流上进行隐私保持序列模式发现算法,以保持客户秘密发现知识。本文的创新之处有如下几点:(1)引入同态加密技术,结合现有的数据库知识发现技术,提出了基于同态加密性质的隐私保持数据挖掘方法。进而,在两方的基础上提出了进行多方参与的隐私保持数据库挖掘技术,包括关联规则挖掘,序列模式发现。(2)提出了新的隐私保护机制。在添加干扰之后,重构干扰前的序列模式支持度估计,扰乱原有数据情况,进而保持了序列数据库的元数据隐私。(3)提出了新的推荐技术用于协同过滤。利用C-Means聚类产生推荐代理,消除了部分传统算法中采用邻居推荐技术的评分不完整带来的不利影响,进而结合隐私保持聚类算法,提出了隐私协同过滤算法,解决了协同推荐中用户隐私保护的问题。(4)提出了数据流中序列模式挖掘问题。利用快速位图算法,倾斜窗口技术,提出了基于内存的在线概要结构LSP-tree,进行数据流的序列模式挖掘。在此基础上,首次提出在保持客户秘密的前提下,秘密发现数据流中的序列模式信息。