Spark环境下多流形学习算法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:yangmingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
到目前为止,包含大量冗余信息的高维图像数据集的快速增长导致其应用越来越困难,所以迫切需要新的降维方法。流形学习算法自2000年由《Science》期刊发表以来,就成为了机器学习领域的研究热点。无论从理论上还是从应用上,流形学习算法都有着重要的研究意义。经过多年的研究,流形学习算法从传统的单一流形结构演化到多子流形结构;从无监督流形学习算法改进成为监督流形学习、半监督流形学习、增量流形学习和多流形学习算法。流形学习算法在数据可视化、模式识别、文件检索和生物鉴别等方面有重要的应用价值,然而科学技术的发展使得高维数据的大小不断增大,使得传统的流形学习算法显得力不从心。近年来流行的大数据并行处理技术正好为流行学习算法处理海量高维数据提供了新的思路:另外,流形学习算法用于模式识别仍然难以获得较为满意的精度。本文研究了多流形的LLE学习算法,用于设计新的分类器,提出的改进方案很大程度上提高了流形学习算法用于模式识别的分类精度:为了解决流形学习算法的在时间复杂度上的瓶颈,利用Spark并行编程框架实现了多流形学习算法并行化,大幅度的降低了时间复杂度。总而言之,取得了如下研究成果:(1)提出了改进的多流形LLE算法(IMM-LLE)。针对多流形LLE(MM-LLE)算法难以获得很高的分类精度问题,提出了 IMM-LLE算法框架,建立任意两流形之间的局部低维嵌入和设计分类器,并设计样本外点的嵌入方法和分类方法。针对最佳维度查找问题,提出了自适应最佳维度选择方法。该方法先从训练集中抽取验证集,然后用样本外点学习方法将验证集嵌入到低维流形中,再选择分类精度最高所对应的维度作为候选最佳维度。进一步从候选最佳维度中选取使流形间距离与流形内密度比值最大的作为最佳维度。(2)提出了基于Spark的改进的多流形LLE并行学习算法(PIMM-LLE)。为了使流形学习算法适应大数据环境,引入并行学习框架,在IMM-LLE算法的基础上加入了 Spark编程框架,实现了k近邻查找、构建代价矩阵、提取特征向量和分类器构建等过程的并行化。不同量的数据集和节点下的实验表明了基于Spark的IMM-LLE并行学习算法的优越性。
其他文献
人工蜂群(Artificial Bee Colony,ABC)算法是最流行的群智能算法之一,具有控制参数少,结构简单等特点,竞争性更强.但是,该算法在收敛性方面仍然存在不足,这种算法擅长全局探
伴随互联网、大数据、人工智能等新兴科技的发展,进入以知识经济、虚拟经济和网络经济为特征的新经济时代[1],预示着“互联网+传统企业”的融合将登上历史的舞台。面对这无所不在的网络及其带来的全新机遇与挑战,企业需要以更快的步伐跟上时代的发展、适应市场的变化、满足顾客的需求;白酒企业可通过优化营销策略进行转型与升级,以提升顾客忠诚度和市场份额。J酒业是在多元多样的互联网环境下成长起来的白酒企业,其目标顾
学位
半导体硫化物是一种新颖的半导体材料,具有合适的带隙、良好的化学稳定性、低毒性和价格低廉等性能,近年来受到学者的广泛关注。同时,半导体硫化物具有良好的吸收可见光和近红外光的能力,因此可以作为一种很有前途的可见光光催化剂和宽带隙半导体的敏化剂。单一硫化物的光催化性能并不理想,这是由于在光照下分离的光生电子和空穴没能及时转移,复合率高,大大降低了光催化性能。为了有效的提高可见光的光催化性能,将P型半导体
塘古孜巴斯坳陷西北部断裂带位于塘古孜巴斯坳陷与麦盖提斜坡、巴楚隆起及塔中隆起的过渡部位,由玉东断裂带、玛东断裂带、塘北断裂带以及中3—塔中3井断裂带组成,在平面上表
下印度河盆地Badin地区白垩系储层物性和岩性差异明显,油、水层的岩石电性变化小。本文利用大量的岩心、试油、测试数据,结合测井解释理论的储层识别方法,对Badin地区进行深
私人小客车合乘是一种有效的交通需求管理策略,符合共享交通的发展理念。鼓励私人小客车合乘出行不仅能够提高运输效率、降低出行成本、缓解道路压力,还能抑制停车需求、缓解
格氏乳杆菌(Lactobacillus gasseri)作为肠道内重要的共生菌,因其具有维持肠道菌群微生态平衡、抑制病原菌生长、缓解过敏反应等益生特性,部分菌株目前已应用于食品发酵和保健品的生产。格氏乳杆菌能够黏附定植于肠上皮细胞,介导免疫应答反应并发挥潜在益生功效,然而其对宿主体内免疫相关基因的诱导情况和具体的调节机制尚不清楚。由于益生菌的功能特性存在明显的菌株和宿主特异性,因此深入解析格氏乳杆
空间统计不仅仅在应用统计学中具有重要的研究意义,并且在地质学、测控学、气象学以及城市规划学等等诸多领域发挥着不可小觑的作用。而空间插值作为空间统计学中最为重要的
表观遗传(epigenetics)是指在不改变DNA序列的情况下,却可以使基因表达发生可遗传的改变。DNA甲基化是植物最重要和最基础的表观遗传方式,参与完成生命周期以及适应环境变化
在大数据时代,如何深化现代教育技术与英语课堂的融合?为提高初中英语课堂质效及技术含量,笔者亲身参与了来自北京中央电化教育馆的专家王陆教授带领的COP团队课堂观察项目的