多模型合并问题研究及数据挖掘云服务平台开发

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:lsj111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了将多个不同的监督学习模型和非监督学习模型进行合并的问题,并开发了数据挖掘云服务平台COMS(Cloud Oriented Mining System)。   现有的对多模型合并问题的研究,主要集中于多个分类模型的合并或多个聚类模型的合并。随着研究的进展,人们发现在进行分类模型合并的时候包含聚类模型的信息往往能得到很好的效果,不过在此基础上开发的算法基本都需要访问原始数据集,这在一些涉及隐私控制的领域难以应用。为此,我们重点研究了如何在输出层面上对多个分类模型和聚类模型进行合并的问题。具体来说,我们针对多模型合并问题提出了两个解决算法:   1.基于概率潜在语义分析(PLSA)模型的合并算法,该算法将数据对象看作是文档,将分类模型产生的类别(class)和聚类模型产生的划分(cluster)看做是单词,应用PLSA对模型进行训练,根据得到的条件概率——在特定文档下生成单词的概率进行分类。   2.无约束概率嵌入(Unconstrained Probabilistic Embedding)算法UPE,UPE算法假设每一个对象和类别/划分都可以嵌入到一个D维的欧式空间中,将嵌入空间到多个模型产生的结果间的映射看做是一个概率生成模型,嵌入空间中的坐标通过拟牛顿法求得,然后根据对象和类别在嵌入空间中的距离进行分类。   我们在以往的工作中,开发了很多基于Hadoop平台的并行数据挖掘算法,为了方便用户使用我们的资源,本文开发了数据挖掘云服务平台COMS,将我们的硬件资源和数据挖掘算法抽象为提供数据挖掘服务“云”,供用户通过Web接口进行使用。
其他文献
随着集成电路制造和设计技术的不断进步,芯片中晶体管的数目以指数性增长,这导致电路的测试数据量和测试时间急剧增加,测试成本显著上升。测试压缩技术在保障测试质量的前提下,能
近年来,辅助盲人使用计算机的软硬件技术取得了长足的进展,盲人使用计算机已经越来越方便。然而,还是有一些因素使得我国盲人无法和明眼人一样熟练便捷的使用计算机,其中,输入汉字
随着计算机和网络技术的迅猛发展,传统的工业生产正逐渐向以计算机为主导的自动化控制生产转变。在煤炭行业,发展以计算机自动化控制为核心的采煤工艺和监控技术,是近年来煤
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享
由于易用性和良好的扩展性,google提出的MapReduce编程模型被广泛应用于各类大规模数据处理和分析项目中。在实际应用中,一个分析项目往往需要分解成多个MapReduce作业,且这些计
多核已经成为处理器设计的主流技术,应用软件要想获得性能提升也必须实施并行化,并行编程也就成为了广大程序员不可回避的问题。   传统的并行计算多集中在高性能数值计算领
快速傅里叶变换(FFT)是许多信号处理系统的核心算法,不同的应用场合对FFT处理器有不同的性能要求。本文根据项目的总体设计要求,对快速傅里叶变换的相关技术进行分析研究,并结合
条烟装箱是卷烟生产的最后一道工序,在条烟装箱时,装箱机有时会工作混乱,特别是在条打包机生产流量较大或来料不够的情况下,装箱机的工作有可能会不正常,从而出现缺条、缺排或箱内
蛋白质序列鉴定是人类了解蛋白质的第一步,随着基于串联质谱鉴定的蛋白质鉴定技术日趋成熟,高通量、大规模的蛋白质序列鉴定已不再是难题;蛋白质交联技术建立了从蛋白质序列到蛋
随着计算技术和网络技术的飞速发展,IT基础设施中的计算、存储等各类资源都通过网络聚合在一起。这种基于网络的计算环境通常直接服务于开放的、大规模的用户群体,而用户的需求