【摘 要】
:
生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计
【机 构】
:
国防科学技术大学计算机学院,长沙410073深圳华大基因研究院,深圳518083
【出 处】
:
2015中国计算机应用大会暨2015年大数据与物联网在工业中的应用会议
论文部分内容阅读
生物医药领域呈现出“大数据”的趋势,而海量的医药文献信息的快速、自动、高效获取成为医药和各领域专家的挑战.目前基于半自动化的专业数据库大量在大规模命名实体识别、计算效率与数据全面性方面有很大限制.针对该问题,本文提出了一种全新高效的可扩展性大规模文本挖掘方法,并基于一种高效文本挖掘工具PWTEES设计了针对疾病的命名实体识别组件DNorm.完成了生物医学文献库PubMed上全部2000多万篇MEDLINE生物医学文献以及PWTEES在天河-2上的大规模部署和挖掘,在天河上实现了数据库的动态部署,可以应对1000进程的并发存取,并探索了分布式可伸缩NoS QL数据库MongoDB的部署测试。将平时在普通服务器上需要3个月才能完成的计算处理缩短至1个小时,从而实现了对大规模生物医学文献文本的高效挖掘和快速知识获取.同时在天河2号上利用200进程对实际头颈癌相关的共约7万篇文献数据进行了并行挖掘分析,取得了80%以上的并行效率.而且随着生物医学文献文本数量的增加,并行效率始终保持在80%左右.
其他文献
LF精炼炉是现代化炼钢厂钢水精炼工序的常用设备之一,为了适应信息化驱动的高节奏的连续生产要求,普遍配套建设了二级过程控制计算机系统(PCS).二级计算机和现场PLC系统的通
控制重载大惯量负载,使用双电液比例泵控系统与传统的单个比例泵相比,由于双泵中泵的排量变小,泵本身的频响更高,并且系统冗余度高,增加了系统的可靠性.系统中对双电液比例泵
建立了带钢纠偏电液伺服系统的数学模型,针对电液伺服系统存在参数不确定性、复杂非线性等特点,提出了自适应滑模控制方法,并利用神经网络的万能逼近特性进行参数逼近;通过Ly
采用激光多普勒测速技术(LDA),对全透明叶轮的液力变矩减速装置泵轮内流场进行测量,考虑激光光路在测量过程中发生折射的影响,并应用锁相平均法针对泵轮周期流道的试验数据进
慕课mooc是近年来全社会比较热的一个词,它是指大规模在线开放课程。将纵横码的教学制作成微视频,并将资源网上的资源进行整合,以慕课形式构成一个完整的教学体系,将更有利于纵横
目前我国的大电网规划设计中主要通过N—1或N—2原则对系统安全性进行评估,但该方法未计及事故发生的随机性和概率.而基于可靠性的风险评估考虑了系统元件的随机特性,是对N—
由于社会对电力的需求和依赖越来越大,电网规划的合理性不只涉及投资,还关系到能否为社会发展提供可靠的支撑,迫切需要建立考虑社会发展等影响因素的评价体系.文章分析了国家
超、特高压线路导线间距、位置差别较大,造成导线的自阻抗、自导纳互阻抗和互导纳等参数相差较大.论文给探讨带修正系数K1至K6的线路参数计算公式,根据导线(避雷线)不同换位
针对基于知识的产品创新设计中组合功能元的结构形成设计方案时,易出现“组合爆炸”问题,提出基于MFBS设计知识模型的产品创新设计研究.建立了MFBS设计知识模型,采用六元组结
本文设计了一种基于脉搏波传导时间的能够用来实现对血压进行长时间连续测量的头带式装置.与传统信号采集方式不同,本装置信号的采集位置均在人体头部,通过嵌入在头带中的心