基于词向量和主题模型的生物医学摘要技术

被引量 : 0次 | 上传用户:ggb1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,因特网上的在线资源和文献数量都在呈指数性的增长。这些资源在给人类带来海量信息的同时,也带来数据冗余和垃圾信息等问题,用户往往需要花费更多的时间才能找到所需要的信息。而文本摘要技术可以快速抽取文档集中的重要信息,并用指定长度的一段话反映原文信息,实现为用户节省搜索时间,提高工作效率的目的。在生物医学领域,如MEDLINE数据库中,一个概念能检索到上万篇相关文献。因此文本摘要技术的研究对于生物医学领域的研究人员具有重大意义。自2013年word2vec工具被提出以来,由于其高效性和简易性,该模型被广泛使用,另外由于近些年深度学习出色的性能效果,使得词向量的研究受到文本挖掘领域研究人员的重视。如何将词向量的研究加入到文本摘要技术方法中,使得摘要性能有进一步的提升,是本文的研究重点。本文将语料集划分为句子集合,每条句子作为图中结点并赋予平均初始权重,利用词向量计算句子间的语义相似性作为两两句子间边的权重,基于PageRank思想对图中结点迭代计算结点权重直至收敛。最终结点权重反映句子的重要性,最后利用最大边缘相关算法消除句子中的冗余信息生成摘要。为充分验证词向量在计算句子相似性的性能效果,本文采用多种方式利用词向量,如采用特征词均值、特征词对应维的最大值、结合语义相似性计算等,以找到最适合本文摘要方法的使用方式。本文通过三组实验,对比发现结合语义相似性计算的方式能够更大程度地提升文本摘要性能。尽管文本摘要技术可以使用户快速浏览大量信息,但是由于不同角色的用户会有不同的信息需求。如对于某一疾病,医生想了解的是相关的最新研究成果等,而病人则关注的是该疾病的症状、治疗方案等。因此本文针对不同类用户,提出面向用户角色的自动文本摘要技术。以医生和病人为研究对象,首先搜集两类用户关于疾病"HIV Infections"的评论信息,生成两个用户评论集,然后分别利用pLSA和LDA对评论集进行主题建模,找到用户对该疾病关注的主题词,并加入到句子权重计算过程中最终生成摘要。通过评价系统摘要性能以及计算摘要和主题词问的相似性,实验结果证明了本文方法在生成面向用户的疾病摘要的有效性。
其他文献
较系统地介绍了近年来具有异质结构的复合光催化材料的研究状况,综述了异质结光催化材料的制备、异质结对光催化活性的影响及其应用的研究新进展.认为异质结是提高电子-空穴
<正>痛风是由于嘌呤代谢紊乱和(或)尿酸排泄障碍所导致的疾病,其临床特点为痛风性急性关节炎反复发作,形成痛风石、痛风石性慢性关节炎及关节畸形,引起间质性肾炎及尿酸肾结
诗学在亚里士多德哲学中的地位一直是研究争论的焦点,相关研究多是围绕诗学与亚里士多德伦理、政治哲学之间的关系,未能从哲学的根本问题“存在”分析诗学之于人的存在的意义
<正>白血病是起源于造血系统的恶性肿瘤,其发生机制与发展过程已经证实与多种遗传学相关,多种原因导致二类基因突变,Ⅰ类突变导致细胞增殖或抑制凋亡,Ⅱ类突变导致细胞分化受
当前建筑工程领域中的安全生产形势日益严峻,并且安全管理中也存在很多问题,所以监理单位对建筑工程安全生产以及安全管理的参与也日益引起建筑领域的重视。在安全监理工作中
目的:观察加味脱花煎对人流不全患者阴道流血、宫腔残留组织物变化情况、月经复潮及盆腔血流情况的影响,评价加味脱花煎治疗人流不全患者宫腔残留组织、阴道流血时间及月经恢
从环境条件、选种及繁殖、盆栽管理、肥水管理、整形修剪及主要病虫害防治等多方面介绍薰衣草盆栽管理技术。
本文对文化产业中的支柱性产业之一—动漫产业为分析对象,来探讨在我国动漫产业发展历程中所遇见的问题及提升的措施。首先我国动漫产业发展过程中遇见的问题:其中之一就是关
近年来,能源危机和环境污染问题日益严重,对内燃机节能减排的研究与人类生产和生活密切相关,具有十分重要的现实意义。为此,内燃机减排方法与技术不断涌现,主要包括可变截面
论述了基于Moolde网络课程平台在线交流的特点、效果,探索影响交互的因素以及如何提升学生的交互积极性和交互效果,并通过基于设计的研究迭代循环,探究如何促进学生的深度交