基于语义增强的生物医学文本挖掘研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:chung51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指数级增长的生物医学文献和海量社交文本蕴含着对生命科学极具价值的生物医学知识,为研究提供了丰富的数据来源。因此,迫切需要探索有效的文本挖掘技术自动地从中发掘出准确的信息。从如此海量文本中获取有效信息需通过有效方法减少文本类别数量、筛选出有效文本,然后从目标文本中获取需要信息。每个阶段方法的性能都对挖掘知识产生影响。为此,本文从文本语义相似性评估和文本分类出发,以生物医学实体关系抽取为目标,深入分析现有方法在语义相似性评估、文本分类和关系抽取的不足,结合生物医学文本的特点,围绕如何利用语义交互和知识表示增强语义展开研究。首先,针对由于生物医学句子长且句式复杂导致的长距离依赖问题,以及现有方法忽略两个句子间语义交互的重要性,提出了交互自注意力机制并以此实现句子间的语义交互,增强彼此语义,缓解长距离依赖问题,扩大不相似句对的语义差异和缩小相似句对的语义差异,提升生物医学文本语义相似性的评估能力。另一方面,针对交互注意力中向量平均可能导致语义损失,以及传统上下文无关词嵌入影响系统性能的问题,提出了交叉自注意力以减少语义损失,同时利用预训练模型产生上下文相关词嵌入以克服传统词嵌入的不足。实验结果表明,该方法能够更好地增强语义并提升性能。其次,由于社交文本短小导致语义表示不足以及目标文本的稀疏,因此在生物医学文献中表现良好的方法对社交文本分类表现欠佳。针对该问题和现有方法在社交文本中的情感表示不充分的问题,提出了集成知识、情感特征和预训练模型的社交文本分类方法。该方法构建了一个药物-不良反应共现库,并利用构建的共现库生成每个句子的共现子句,然后实现共现子句与原始文本的语义交互以增强短文本的语义表示,弥补语义表示的不足。同时,将句子级情感语境信息与情感词分值相结合以表达更充分的情感信息。实验结果表明,通过语义交互增强的短文本语义和充分的情感信息改善了分类性能。最后,在文档级关系抽取时,针对现有方法捕获全局语义不充分、未区分文档中不同句子对整篇文档语义的贡献差异以及学习目标实体语义不完整的不足,提出了一种语义增强和知识表示的文档级关系抽取方法。该方法利用交叉自注意力机制实现语义交互,增强标题和摘要的语义表示,捕获更充分的全局语义。同时,利用高斯概率分布为共现句以及周边实体句生成贡献系数,学习更有效的语义。此外,提出了从整篇文档收集目标实体语义的方法,从而表示了更完整的目标实体语义。实验结果表明该方法取得了良好的文档级关系抽取性能。
其他文献
多晶硅太阳能电池转换效率的高低与少数载流子寿命的长短密切相关,多晶硅连铸坯中位错密度低、晶界数量少、晶界垂直于生长界面都会增加少数载流子寿命。而传统多晶硅连铸坯的位错密度、晶界数量等都不理想,且传统多晶硅铸造技术具有生产成本高、效率低等局限性。多晶硅连铸坯的应力小、凝固界面形状平直、柱状晶晶粒、晶粒尺寸大有利于降低位错密度、使晶界垂直于生长界面、减少晶界数量,且连续铸造技术具有可以提高材料的利用率
具有形状梯度的超浸润图案化表面可实现流体的自发定向运输,在水雾收集、流体样品输送等领域具有重要应用价值。现有超浸润图案化表面的流体运输区域常为楔形图案,图案宽端宽度随图案长度的增加而不断增大,这种结构特征使流体无法集中沿图案长度方向运输,并使流体运输速度随运输距离的增加而急剧减小。此外,现有超浸润图案化表面还存在加工方法工艺复杂、性能稳定性差等问题。针对上述问题,本文设计了一种适用于流体长距离、高
反应溶剂在有机合成中发挥了至关重要的作用,其可通过溶剂化效应调控液—液均相有机合成的反应速率常数。过程系统工程领域的优化方法可应用于反应溶剂分子结构设计,从而提高反应动力学速率与选择性、改善产物收率与纯度、从根本上减少或消除副产物生成、实现有机合成清洁生产。然而,反应溶剂设计面临许多挑战。一方面,缺乏拓展性强、准确度高、冗余性低的反应动力学模型以定量调控考虑溶剂化效应的反应速率常数;另一方面,亟需
生物质与废旧塑料共气化时塑料的高挥发分及低固定碳可推动且有助于生物质更快更充分地气化,且大部分塑料不含氧或氧含量极少,二者共气化可实现产物中氧的可控调配,获得氢含量高、热值高的高品质合成气。但目前关于生物质与塑料共气化协同作用对气化产气行为影响的规律尚不明确,且生物质尤其是农作物秸秆生长过程中富集了大量碱金属,一方面以催化方式对气化气品质产生影响,另一方面可能导致积灰、结渣、腐蚀等现象的发生。鉴于
铱配合物因其具有较高的发光效率和较长的磷光寿命等优点受到广泛关注。但由于聚集导致猝灭(ACQ)效应的影响,使其在固态下的应用受到了极大地限制。因此,开发具有聚集诱导发光(AIE)性质的铱配合物成为当前的研究热点。作为一类有潜力的氧敏感探针(OSPs),如何从分子水平理解铱配合物的结构与氧传感性能的关系,是一个有重要意义的研究课题。本论文设计合成了系列含二苯氨基的环金属铱配合物,探究了铱配合物的结构
氢能是人类社会未来的终极能源,将氢能纳入未来能源体系是人类摆脱化石能源依赖实现可持续发展的关键。电解水制氢是目前最环保、产氢纯度最高的制氢方式,然而工业电解水制氢多在强酸、强碱环境下进行,酸碱污染、设备腐蚀问题严重,对淡水资源依赖程度高,难以在淡水资源匮乏地区广泛普及。海水资源储量丰富(约13.7万亿立方米),是潜在的氢能资源宝库。我国海洋面积约300万平方公里,因此适用于复杂离子环境的海水电解制
全球经济社会正面向控制环境污染、实现低碳发展转型,能源结构也需紧跟清洁化、低碳化的时代潮流,高效推动技术创新与变革。电化学能量存储与转化技术是可再生清洁能源高效、环保利用的关键,其开发与应用可有效缓解世界能源危机。电化学电源是能源存储与转换的重要工具,其中兼具能量密度高、循环寿命长和环境友好优势的锂离子电池在便携式电子设备和新能源汽车等领域已进入快速应用发展阶段,开发新型兼具高容量和长循环使役性能
膜吸收是在两相不直接接触的前提下实现相间传质的一种新型分离过程。与传统的化学吸收相比,因接触面积大、效率高、结构紧凑等优势,在解决全球变暖问题,实现温室气体CO2的捕集,特别是天然气净化脱碳等方面展现出良好的应用前景。目前,相关的膜吸收研究工作主要集中膜材料、膜结构与性能对膜吸收过程影响等方面的研究,但针对实际应用,特别是天然气净化脱碳实际工况下的膜吸收过程(高压膜吸收过程)研究的相关报道较少,如
本论文开展了两部分研究工作:第一部分:构象限制的苯基环丙胺类LSD1抑制剂的合成、制备及生物活性研究组蛋白赖氨酸特异性去甲基化酶1(Lysine specific histone demethylase 1,LSD1)在介导癌症疾病涉及的基因表达中起重要作用,特别是在人类急性髓细胞白血病(Acute myelogenous leukemia,AML)中过表达,对白血病的发生和发展起到促进作用,LS
变长柔性结构广泛应用于实际工程中,如航天飞行器天线、太空电梯、机械臂和绳索-滑轮系统等。这些动力系统通常具有两个特点:一个是结构发生大位移大旋转小应变形式的几何非线性变形,另一个是系统的长度会随时间发生变化。在对这些系统进行动力分析时,通常可以将它们等效为滑动梁模型或者柔性梁带有移动边界和(或)移动荷载模型,然后利用传统的非线性有限元法在拉格朗日描述下(单元长度固定)进行数值求解。为了精确描述移动