论文部分内容阅读
随着科学技术的快速发展,因特网上的在线资源和文献数量都在呈指数性的增长。这些资源在给人类带来海量信息的同时,也带来数据冗余和垃圾信息等问题,用户往往需要花费更多的时间才能找到所需要的信息。而文本摘要技术可以快速抽取文档集中的重要信息,并用指定长度的一段话反映原文信息,实现为用户节省搜索时间,提高工作效率的目的。在生物医学领域,如MEDLINE数据库中,一个概念能检索到上万篇相关文献。因此文本摘要技术的研究对于生物医学领域的研究人员具有重大意义。自2013年word2vec工具被提出以来,由于其高效性和简易性,该模型被广泛使用,另外由于近些年深度学习出色的性能效果,使得词向量的研究受到文本挖掘领域研究人员的重视。如何将词向量的研究加入到文本摘要技术方法中,使得摘要性能有进一步的提升,是本文的研究重点。本文将语料集划分为句子集合,每条句子作为图中结点并赋予平均初始权重,利用词向量计算句子间的语义相似性作为两两句子间边的权重,基于PageRank思想对图中结点迭代计算结点权重直至收敛。最终结点权重反映句子的重要性,最后利用最大边缘相关算法消除句子中的冗余信息生成摘要。为充分验证词向量在计算句子相似性的性能效果,本文采用多种方式利用词向量,如采用特征词均值、特征词对应维的最大值、结合语义相似性计算等,以找到最适合本文摘要方法的使用方式。本文通过三组实验,对比发现结合语义相似性计算的方式能够更大程度地提升文本摘要性能。尽管文本摘要技术可以使用户快速浏览大量信息,但是由于不同角色的用户会有不同的信息需求。如对于某一疾病,医生想了解的是相关的最新研究成果等,而病人则关注的是该疾病的症状、治疗方案等。因此本文针对不同类用户,提出面向用户角色的自动文本摘要技术。以医生和病人为研究对象,首先搜集两类用户关于疾病"HIV Infections"的评论信息,生成两个用户评论集,然后分别利用pLSA和LDA对评论集进行主题建模,找到用户对该疾病关注的主题词,并加入到句子权重计算过程中最终生成摘要。通过评价系统摘要性能以及计算摘要和主题词问的相似性,实验结果证明了本文方法在生成面向用户的疾病摘要的有效性。