多示例深度森林的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:newhing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多示例学习是弱监督学习研究的重要范型之一,在图像检索、文本分类、医学检测等诸多领域具有广泛的应用。深度森林模型近年来受到了高度关注,能有效减少超参数的规模、并取得良好的性能。本文针对多示例学习深度森林模型进行了研究,取得了以下的创新成果:第一,提出了新型多示例深度森林MIDF(Multiple Instance Deep Forest),以及两种新型包级判别多示例森林算法,即多示例随机森林算法和多示例极限随机树森林算法。多示例深度森林MIDF使用级联结构,每层使用新型包级判别多示例森林算法,同时算法将训练样本中的每一个示例都当作一个包来进行拼接。有效保证每层输出的概率分布与传递给下一层的特征拼接成功,同时能自动确定深度森林所需的层数,大幅度减少了人工设计成本和调参的时间开销。实验结果表明,MIDF算法在调参方面具有鲁棒性,在药物活性预测、自动图像标注、文本分类等真实应用上取得很好的效果。第二,提出了新型多示例深度森林MIDF的加速算法,包括算法设计与代码实现两个层面进行加速。从算法设计层面,选择在耗时最多的划分结点部分引入在线排序算法,达到计算时连续访问内存的目的,记录父结点中不适合继续划分的属性,以减少CPU密集型的不纯度计算;从代码实现层面,将代码中的计算密集型任务用Cython改写,避开GIL解释锁并充分利用多核CPU的优势,提升了单任务的运行效率。重新定义代码中的包结构,使用Numpy向量化运算替代循环,从而在加快运行速度的同时降低程序运行过程中计算机内存的消耗。实验结果表明,MIDF加速算法相较于原算法在训练时间上提升了20~106倍,在测试时间上提升了7~55倍。
其他文献
随着房地产市场与资本市场以及实体经济的关联度愈发紧密,探究货币供应量对房地产市场的溢出效应对于未来提高货币政策传导效率、促进经济平稳运行有着现实意义。通过构建包
随着工业化的快速发展,农业种植养殖方式的转变,磷污染的形势日趋严峻。受到磷污染的水体若不进行及时有效的治理,水体功能会逐渐丧失,人类生存面临前所未有的挑战和威胁。本
安全作为学校发展的底线要求,是校园建设的核心之一。随着智慧安防的逐步兴起,智慧校园已不再是一种理念,而是慢慢的转变为现实中的广泛应用。其中,安防是智慧校园的核心之一
目的探讨分析腹腔镜联合输尿管镜气压弹道碎石在肝胆管取石术中的临床疗效。方法选择2011年1月至2012年3月到我院外科就诊的肝胆管结石患者96例,随机分为两组,观察组46例,采
党的十八届三中全会《决定》提出要"健全改进作风常态化制度",形成贯彻群众路线的长效机制和刚性约束,克服作风问题的顽固性和反复性。对国有企业来说,加强党员干部的作风建
利用AMESim软件针对某混合动力汽车建立其仿真模型,重点研究并制定了使发动机的最优工作的控制策略和自动变速器最佳动力性换档规律.在NEDC循环工况下对仿真模型进行了动力性
本文主结合目前世界技术水平最先进的特高压直流输电工程实例中所解决的冲洪砂卵石层地基强夯处理问题,并运用压实系数检测试验、重型动力触探试验和平板荷载试验三种数据分
简要阐述了现代报告厅中各子系统包括:扩声系统、视频系统、灯光(供电)系统、控制系统等的工程设计理念,并以一个比较典型完整的工程范例来说明其在实际中的运用。
以海藻酸钠(SA)和聚乙烯醇(PVA)为主要原料,共混制备了具有特定功能的复合纤维.通过研究不同工艺条件下制备的复合纤维.利用扫描电镜(SEM)、热重分析(TGA)、单丝强力仪等对纤
“人工智能+法律”是指将人工智能技术应用到法律实践当中去,让原本相对固态、机械的法律应用更加高效化、智能化。“人工智能+法律”的时代已经伴随着“人工智能技术”的发