【摘 要】
:
近年来,深度学习模型已在医疗领域的预测任务上得到广泛应用,并取得了不错的效果.然而,深度学习模型常会面临带标签训练数据不足、整体数据分布偏移和类别之间数据分布偏移的问题,导致模型预测的准确度下降.为解决上述问题,提出一种基于域对抗和加性余弦间隔损失的无监督域适应方法(additive margin softmax based adversarial domain adaptation,AMS-ADA).首先,该方法使用带有注意力机制的双向长短程记忆网络来提取特征.其次,该方法引入了生成对抗网络的思想,以域
【机 构】
:
北京大学信息科学技术学院 北京 100871;机器感知与智能教育部重点实验室(北京大学)北京 100871
论文部分内容阅读
近年来,深度学习模型已在医疗领域的预测任务上得到广泛应用,并取得了不错的效果.然而,深度学习模型常会面临带标签训练数据不足、整体数据分布偏移和类别之间数据分布偏移的问题,导致模型预测的准确度下降.为解决上述问题,提出一种基于域对抗和加性余弦间隔损失的无监督域适应方法(additive margin softmax based adversarial domain adaptation,AMS-ADA).首先,该方法使用带有注意力机制的双向长短程记忆网络来提取特征.其次,该方法引入了生成对抗网络的思想,以域对抗的形式减少了整体数据之间数据分布偏移.然后,该方法引入了度量学习的思想,以最大化角度空间内决策边界的方式进一步减少了类别之间的数据分布偏移.该方法能够提升域适应的效果与模型预测的准确度.在真实世界的医疗数据集上进行了重症监护病人死亡风险预测任务,实验结果表明:由于该方法相较于其他5种基线模型能够更好地解决数据分布偏移的问题,取得比其他基线模型更好的分类效果.
其他文献
为了在密码学课堂教学的同时融入课程思政教育,通过分析现有教学现状和存在问题,提出基于哲学思想、技术路线及加解密处理环境的教学导图,结合学科内容特点,分析和总结密码学教学内容中所蕴含的哲学和人文思想,探讨如何在教学中引入传统文化经典中的词句,力求课程和思政的有机统一.
为了更有效地评估学生的团队协作能力,以PBL学习模式为基础,提出构建一个集在线学习和能力评估为一体的平台,结合在线教学与数据挖掘手段,阐述该平台的特点和优势,以复旦大学某班级的教学实践为例,说明该平台的可行性和应用效果.
新兴的非易失性内存(non-volatile memory,NVM)具有字节寻址、持久性、大容量和低功耗等优点,然而,在NVM上进行并发编程往往比较困难,用户既要保证数据的崩溃一致性又要保证并发的正确性.为了降低用户开发难度,研究人员提出持久性事务内存方案,但是现有持久性事务内存普遍存在扩展性较差问题.测试发现限制扩展性的关键因素在于全局逻辑时钟和冗余NVM写操作.针对这2个方面,提出了线程逻辑时钟方法,通过允许每个线程拥有一个独立时钟,消除全局逻辑时钟中心化问题;提出了缓存行感知的双版本方法,为数据维护
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的“内存墙”问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array,FPGA)平台使用基于深度确定性策略
概率生成模型是知识表示的重要方法,在该模型上计算似然函数的概率推理问题一般是难解的.变分推理是重要的确定性近似推理方法,具有较快的收敛速度、坚实的理论基础.尤其随着大数据时代的到来,概率生成模型变分推理方法受到工业界和学术界的极大关注.综述了多种概率生成模型变分推理框架及最新进展,具体包括:首先综述了概率生成模型变分推理一般框架及基于变分推理的生成模型参数学习过程;然后对于条件共轭指数族分布,给出了具有解析优化式的变分推理框架及该框架下可扩展的随机化变分推理;进一步,对于一般概率分布,给出了基于随机梯度的
大规模非结构化数据的爆炸式增长给传统关系型数据库带来了极大的挑战.基于日志结构合并树(log-structured merge tree,LSM-tree)的键值存储系统已被广泛应用,并起到重要的作用,原因在于基于LSM-tree的键值存储能够将随机写转化为顺序写,从而提升性能.然而,LSM-tree键值存储也存在一些性能问题.一方面,键值存储利用compaction操作更新数据,保持系统平衡,但造成严重的写放大问题.另一方面,以传统计算为中心的架构下,compaction操作带来大量的数据传输,影响了系
数据流分类是数据挖掘中最重要的任务之一,而数据流的概念漂移特性给分类算法带来了巨大的挑战.基于极限学习机算法进行优化是解决数据流分类问题的一个热门方向,但目前大多数算法都采用提前指定模型参数的方式进行学习,这种做法使得分类模型只能在特定的数据集上才能发挥较好的性能.针对这一问题,提出了一种简单有效的处理概念漂移的算法——自适应在线顺序极限学习机分类算法.算法通过引入自适应模型复杂度机制,从而具有更好的分类性能.然后通过引入自适应遗忘因子与概念漂移检测机制,能够根据动态变化的数据流进行自适应学习,从而可以更
广泛应用的移动定位设备方便了用户位置数据的获取,轨迹数据量高速增长.通用伴随模式挖掘聚焦时空维度上的用户高相似度行为路径发现问题,基于大规模轨迹数据设计高效准确地伴随模式挖掘方法对发现用户偏好、构建新商业模式等具有重要意义,同时也极具挑战.一方面,海量且不断增长的轨迹数据要求伴随模式挖掘应具有良好的可扩展性,集中性挖掘策略并不适用.另一方面,现有的分布式挖掘框架在为高效模式挖掘提供高质量数据输入、轨迹数据中大量松散连接的有效处理等方面考虑不足,使得通用伴随模式发现存在改进空间.提出了一个分布式的2阶段通用
数据驱动的扩展置信规则库专家系统能够处理含有定量数据或定性知识的不确定性问题.该方法已被广泛地研究和应用,但仍缺乏在不完整数据问题上的研究.鉴于此,针对不完整数据集上的问题,提出一种新的扩展置信规则库专家系统推理方法.首先提出基于析取范式的扩展规则结构,并通过实验讨论了在新的规则结构下,置信规则前提属性参考值个数对推理方法的影响;然后提出通过不完整数据生成具有不完整置信规则,并构成析取范式置信规则库的方法,同时引入衰减因子修正不完整规则权重,使不完整规则可以更合理地参与信息融合过程;最后,选取若干个公共数
持久性内存具有非易失性、可字节寻址、随机读写速度快、能耗低以及可扩展性强等优良特性,为大数据存储和处理提供了新的机遇.然而,持久性内存系统的故障一致性问题为其广泛推广应用带来挑战.现有一致性保证的研究工作通常以增加额外读写为代价,对持久性内存系统的性能和寿命在时间和空间维度产生了一定的影响.为了降低该影响,提出一种耐久性感知的持久性内存异地更新机制(endurance aware out-of-place update for persistent memory,EAOOP).通过软件透明的异地更新技术,