基于Spark深度感知决策树的恒星/星系分类应用研究

来源 :计算机应用研究 | 被引量 : 5次 | 上传用户:redblackzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统决策树分类算法需要依靠人工构造特征才能实现对数据进行分类的问题,以及其在处理海量天文数据时所面临的处理速度和资源分配瓶颈问题,结合深度学习强大的特征学习能力和Spark高效的数据处理性能,提出了一种基于Spark平台的深度感知决策树并行化算法,并将其应用于天文恒星/星系分类问题中。研究结果表明,该算法具有很好的可伸缩性,可以通过增加Spark集群计算节点的数量,来减少分类模型所需的训练时间和增强其对海量天文数据的处理能力。并且,其因同时具备强大的特征学习和分类能力而在恒星星系分类问题上可以获
其他文献
由于现今的网络缺乏源地址验证机制,导致多种依靠IP欺骗的恶意攻击时有发生。在DHCPv6场景中防止IP欺骗的源地址验证改进(SAVI)工作,目前正由互联网工程任务组(IETF)驱动,但尚未给出确切的源地址验证方法。为此,提出两个验证方法:改进的多比特Trie树算法和改进的哈希查找算法,实现了SAVI DHCPv6的仿真系统,并使用该系统进行不同验证方法的对比实验。结果表明,提出的两种改进方法比顺序
针对粒子传播过程中因欠缺观测信息而导致退化现象和异常粒子,提出一种基于试探采样的自反馈目标跟踪算法。该算法在当前帧完成采样后向前试探采样粒子,并且反馈到当前帧,此举是利用未来帧提前采样形式把观测信息融入到状态转移模型中,从而使概率密度分布逼近真实值。分析上下帧间粒子权值关系,舍弃异常元素,进行不完全重采样,在缓解退化问题的同时保持样本集多样性。目标状态估计采用加权—最大后验准则,提高了目标跟踪精确
针对车型种类复杂、车辆品牌繁多导致车型检索困难的问题,提出了基于深度特征编码的两级车辆检索方法。通过对深度卷积网络进行改进,构建适应车辆图像特征提取的深度卷积网络。采用两级检索策略以及相似性度量函数,有效地实现了车型和车辆品牌的检索。根据轿车、货车和客车三种车型的检索和车辆品牌的检索实验结果,表明该方法能够有效地提高车辆检索效率。
为了提高软件缺陷预测的准确率,利用布谷鸟搜索算法(Cuckoo Search,CS)的寻优能力和人工神经网络算法(Artificial Neural Network,ANN)的非线性计算能力,提出了基于CS-ANN的软件缺陷
随着片上网络的兴起和发展,针对带宽和时延约束下实现低功耗成为其设计的焦点之一。为此,提出一种基于量子蚁群映射算法的方法来解决片上网络设计中使IP核映射的通信功耗最小
最小顶点覆盖问题是一个应用很广泛的NP难题,针对该问题给出一种增量式属性约简方法。首先将最小顶点覆盖问题转换为一个决策表的最小属性约简问题;利用增量式属性约简思想,随着图中边数的增多,提出一种更新最小顶点覆盖的增量式属性约简算法;该算法时间复杂度低于计算整个图的最小顶点覆盖的时间复杂度,同时针对大规模图问题,可随着边的增加动态更新最小顶点覆盖,因此降低了属性约简的方法求解最小顶点覆盖问题的运行时间
股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。
在传统的人工免疫网络基础上,将多智能体技术的典型策略融入到免疫网络的进化过程中。算法引入了邻域克隆选择,操作过程从局部到整体,能够更加全面地模拟免疫网络的自然进化模型;同时在免疫网络进化过程中增加了抗体间的竞争和协作操作,提高了网络的动态分析能力。后续实验中,分别采用常用的三组UCI数据和一幅红树林多光谱TM遥感图像对算法加以验证,实验结果表明算法对遥感图像有较高的分类效率,对UCI数据也有较好的
为了进一步提高无标志软件缺陷数据预测的精度,提出了一种基于超欧氏距离近邻传播的软件缺陷预测方法。在近邻传播算法中引入密度思想,定义了密度因子和超欧氏距离测度概念,设计了密度敏感相似度度量元(即密集度量元),解决了传统近邻传播算法采用欧氏距离表示数据相似度难以有效处理复杂结构数据的不足。该方法应用于无标志软件缺陷数据的预测,并通过三组航空航天软件数据仿真验证了该方法的有效性,提高了无标志软件缺陷数据
为同时保证无线传感器网络数据的可靠传输,降低密集传感器网络中冗余的传输链路产生的节点之间的干扰对网络传输的影响,需要对网络的拓扑密度进行控制。基于节点的真实信道传