论文部分内容阅读
随着信息技术的发展,互联网上的数据得到了快速增长,尤其是文本数据。话题演化与摘要生成方法可以对大量文本数据的语义进行分析,并概括其主要内容,为用户提供一种简单的、快速的、全面的信息获取方式。话题演化与摘要生成方法的研究热点之一是基于概率主题模型的方法,概率主题模型是近年来提出的一种建模文本语义的方法,可以灵活地结合先验知识或者元信息进行扩展,广泛应用于文本挖掘的各个领域。 然而要在具体应用中使用概率主题模型,往往需要针对数据的特点来构建合适的应用模型。本文针对文本挖掘中的话题演化、自动文本摘要以及实体消歧等应用,通过分析现有方法存在的问题,提出了相应的解决方法,以提高文本挖掘的能力。 本文的主要创新点为: 1.提出了一种基于HTEM(Hierarchical Topic Evolution Model)模型的话题演化方法。针对传统话题演化方法很少建模话题之间关联,在话题数目较多的情况下获取演化信息效率下降的问题,该方法利用距离依赖的中餐馆过程建模文档之间的时间依赖性,通过将其扩展为嵌套模型建立话题之间的层级关联,并在各层级采用不同的时间粒度建模多尺度的时间依赖关系。该方法的特点是话题的组织形式呈树形结构,提供由粗到细的话题演化展现方式。实验结果表明该方法通过树形结构可以由粗到细地实现话题的快速定位,提高获取演化信息的效率,可用于对大量文本数据主要内容的快速获取。 2.提出了一种基于ETEM(Entity-oriented Topic Evolution Model)模型的时间线摘要生成方法。针对传统时间线摘要生成方法仅依靠话题自身特征,在面向实体的摘要生成中准确率下降的问题,该方法首先基于演化式分层Dirichlet过程建模话题随时间的变化,并考虑到实体在话题演化中的不同角色,提出了一种联合建模话题演化和实体角色的概率主题模型,然后在摘要句选择过程中综合考虑实体相关性、覆盖性、差异性、重要性等特征。实验结果表明该方法面向各实体生成的摘要具有显著不同,准确地反映了实体在话题中的行为过程,可以提供简洁、多样化的信息获取方式。 3.提出了一种基于UITM(User Interest Topic Model)模型的微博实体链接方法。针对传统实体链接方法对微博用户信息利用不充分,导致准确率不高的问题,该方法首先利用条件独立LDA模型从知识库中训练实体的语义,然后通过主题和实体两个粒度同时刻画用户兴趣,并将用户兴趣、微博语义以及训练好的实体语义融入在一个完整的实体链接概率主题模型中,通过对概率图模型中隐变量的求解完成实体链接任务。该方法的特点是多种特征之间可以相互促进与增强。实验结果表明该方法提高了实体链接的准确率,可以更有效地提高文本的语义建模能力和阅读性。