论文部分内容阅读
本文研究了将多个不同的监督学习模型和非监督学习模型进行合并的问题,并开发了数据挖掘云服务平台COMS(Cloud Oriented Mining System)。
现有的对多模型合并问题的研究,主要集中于多个分类模型的合并或多个聚类模型的合并。随着研究的进展,人们发现在进行分类模型合并的时候包含聚类模型的信息往往能得到很好的效果,不过在此基础上开发的算法基本都需要访问原始数据集,这在一些涉及隐私控制的领域难以应用。为此,我们重点研究了如何在输出层面上对多个分类模型和聚类模型进行合并的问题。具体来说,我们针对多模型合并问题提出了两个解决算法:
1.基于概率潜在语义分析(PLSA)模型的合并算法,该算法将数据对象看作是文档,将分类模型产生的类别(class)和聚类模型产生的划分(cluster)看做是单词,应用PLSA对模型进行训练,根据得到的条件概率——在特定文档下生成单词的概率进行分类。
2.无约束概率嵌入(Unconstrained Probabilistic Embedding)算法UPE,UPE算法假设每一个对象和类别/划分都可以嵌入到一个D维的欧式空间中,将嵌入空间到多个模型产生的结果间的映射看做是一个概率生成模型,嵌入空间中的坐标通过拟牛顿法求得,然后根据对象和类别在嵌入空间中的距离进行分类。
我们在以往的工作中,开发了很多基于Hadoop平台的并行数据挖掘算法,为了方便用户使用我们的资源,本文开发了数据挖掘云服务平台COMS,将我们的硬件资源和数据挖掘算法抽象为提供数据挖掘服务“云”,供用户通过Web接口进行使用。