C4S2-170:PDMiner:基于云计算的并行分布式数据挖掘工具平台

来源 :第二届中国云计算与SaaS大会 | 被引量 : 0次 | 上传用户:fky12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法到处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.
其他文献
本文利用RS(Reed-Solomon)编码技术,设计并实现了一种基于RS 码的分布式云数据完整性检测方案RSBDS(Reed-Solomon code Based Distribution Scheme),该方案不需要在客户端保存验证码等元数据,在减少存储开销的同时,消除了因为元数据丢失而产生的安全隐患.论文还提出存储节点的动态分级管理机制,增强了数据的安全性和可靠性,提高了数据完整性检测效率.
网格环境的开放性、动态性及复杂性,用户面对海量的资源,由于存在大量欺诈行为及不可靠服务,用户在增加选择机会的同时也面临着如何识别和选择高效、安全的资源问题.借用万有引力定律,高效、安全的网格资源节点能体现出更大的吸引力,定义“信任引力”与“信任半径”的乘积为“信任力矩”,提出了基于信任力矩的网格资源选择模型,将网格资源按类型划分为多个可信资源域,每个域的网格资源由其域代理负责组织管理,通过对资源节
本对国内中小商业银行客户评价系统在研发和管理中存在的问题进行了分析,并结合现代银行具体的业务形态,从管理和技术的角度,提出了一套较为系统的提高中小银行客户评价和竹理水平的多维客户评价模型,并给出了基于云计算技术的具体实现方案.该模型有利于进一步提升中小商业银行的核心竞争力,推动我国中小商业银行业务的快速发展.
移动智能终端的快速发展为用户的位置服务提供了新的应用,以用户位置行为分析为核心的服务技术具有重要的商业应用价值.用户位置及其活动特点和趋势与其所在位置的实际状况及本人意愿密切联系,用户所在位置的资源和状况信息直接影响了用户的位置行为.本文引入小世界网络模型分析用户的位置行为特征,发现用户基于位置的行为属性和聚类.采用推荐度计算方法描述结点之间的相似性,通过将用户位置作为一个树根,把位置资源作为用户
不确定数据流对处理过程有独特的需求,如存储空间有限、响应时间很短、需要连续处理、数据无限等,这对数据流的处理算法,特别是耗时耗内存较多的连接操作提出了挑战.针对大规模不确定数据流并行连接所存在的速度和内存消耗问题,提出了多核处理器上不确定数据流并行连接和内存溢出时自适应处理的一系列算法,能够高速在线处理并发不确定数据流.在此基础上,针对道路各个卡口监控到的不确定数据流,提出一种实时发现套牌车的方法
任务调度是影响云计算系统性能的关键因素.云环境中资源完全虚拟化的特点,使得传统的解决方案无法直接使用.为了更好地实践云计算提供廉价按需服务的宗旨,本文提出了一种基于模糊聚类的两级任务调度算法FCTLBS (fuzzy clustering and two level based task scheduling algorithm).该算法将云调度分为用户调度和任务调度两个层面,采取不同的调度策略.
基于向量矩阵运算,证明了秘密同态基本变换函数的性质.在实数域上,提出了一种能完成算术运算的秘密同态算法.在该算法中,实数被表示为分数形式,分子、分母被随机拆分为任意个整数之和.随后,对分子、分母分别用基本变换函数加密,用中国剩余定理解密.密文的算术运算法则与明文一致.从应用实例可以看出,该算法在实数域上加、解密及算术运算是正确的.安全分析表明,当密钥空间保密时,该算法是不可破解的,当其作为公共参数
针对管理型SaaS中租户分层分发文档的要求,提出一种无可信私钥生成中心 (private key generator,PKG)身份密码的分层内容摘录签名(content extraction signature,CES)方案.方案采用分层摘录策略,实现签名的分层摘录;基于身份密码实现CES,克服了传统PKI技术复杂的CA管理问题;基于无可信PKG身份密码实现CES,在一定程度上解决了SP和租户间无
针对无线传感器网络节点通信范围有限和网络节点易失效的问题,利用复杂网络理论提出了一种基于适应度和局域世界的无线传感器网络拓扑演化模型(EBFL,Topology Evolution of Wireless Sensor Networks Based on Fitness and Local world),该模型比随机行走(ERW,Evolution by Random Walk)模型更适合无线传感
K均值聚类法能估计出观测信号聚类直线方向,利用主成分分析提取主成分可以提高直线估计精准度和鲁棒性.在此思想的指导下,本文提出基于K均值聚类的势函数法.势函数度量了聚类中心与所有观测点的距离,对势函数求导得到更新聚类中心的迭代公式,利用该公式对K均值聚类法得到的聚类中心进行调整得到精估计.该算法计算量较小,能有效估计出混合矩阵.仿真实验验证了算法的有效性.