基于概率主题模型的话题演化与摘要生成方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:vctlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网上的数据得到了快速增长,尤其是文本数据。话题演化与摘要生成方法可以对大量文本数据的语义进行分析,并概括其主要内容,为用户提供一种简单的、快速的、全面的信息获取方式。话题演化与摘要生成方法的研究热点之一是基于概率主题模型的方法,概率主题模型是近年来提出的一种建模文本语义的方法,可以灵活地结合先验知识或者元信息进行扩展,广泛应用于文本挖掘的各个领域。  然而要在具体应用中使用概率主题模型,往往需要针对数据的特点来构建合适的应用模型。本文针对文本挖掘中的话题演化、自动文本摘要以及实体消歧等应用,通过分析现有方法存在的问题,提出了相应的解决方法,以提高文本挖掘的能力。  本文的主要创新点为:  1.提出了一种基于HTEM(Hierarchical Topic Evolution Model)模型的话题演化方法。针对传统话题演化方法很少建模话题之间关联,在话题数目较多的情况下获取演化信息效率下降的问题,该方法利用距离依赖的中餐馆过程建模文档之间的时间依赖性,通过将其扩展为嵌套模型建立话题之间的层级关联,并在各层级采用不同的时间粒度建模多尺度的时间依赖关系。该方法的特点是话题的组织形式呈树形结构,提供由粗到细的话题演化展现方式。实验结果表明该方法通过树形结构可以由粗到细地实现话题的快速定位,提高获取演化信息的效率,可用于对大量文本数据主要内容的快速获取。  2.提出了一种基于ETEM(Entity-oriented Topic Evolution Model)模型的时间线摘要生成方法。针对传统时间线摘要生成方法仅依靠话题自身特征,在面向实体的摘要生成中准确率下降的问题,该方法首先基于演化式分层Dirichlet过程建模话题随时间的变化,并考虑到实体在话题演化中的不同角色,提出了一种联合建模话题演化和实体角色的概率主题模型,然后在摘要句选择过程中综合考虑实体相关性、覆盖性、差异性、重要性等特征。实验结果表明该方法面向各实体生成的摘要具有显著不同,准确地反映了实体在话题中的行为过程,可以提供简洁、多样化的信息获取方式。  3.提出了一种基于UITM(User Interest Topic Model)模型的微博实体链接方法。针对传统实体链接方法对微博用户信息利用不充分,导致准确率不高的问题,该方法首先利用条件独立LDA模型从知识库中训练实体的语义,然后通过主题和实体两个粒度同时刻画用户兴趣,并将用户兴趣、微博语义以及训练好的实体语义融入在一个完整的实体链接概率主题模型中,通过对概率图模型中隐变量的求解完成实体链接任务。该方法的特点是多种特征之间可以相互促进与增强。实验结果表明该方法提高了实体链接的准确率,可以更有效地提高文本的语义建模能力和阅读性。
其他文献
寻找油气储层,准确地判识油气层位,意义重大。它可以大大减少试油成本及减少投资损失,有着巨大的社会效益和经济效益。本文基于灰色系统理论与人工神经网络的结合,对测井数据所构
本文在对GPRS无线通讯的体系结构和嵌入式系统研究的基础上,进行了基于ARM的GPRS系统的研究,实现GPRS系统的语音短消息通信的功能。本系统通过分析现有的ARM处理器,选取三星公司
随着科技的持续发展,控制系统与网络通信系统的集成已成为控制网络技术的一个热点,网络化控制系统(Networked Control System,NCS)应运而生。网络化控制系统是利用实时网络进行
马尾松(Pinus massoniana)是我国南方主要的速生用材树种之一。但是,由于长期进行纯林经营,使得马尾松人工林生态系统比较脆弱,容易受到松毛虫侵害,而且林地土壤逐渐衰退,林分
本文以条斑紫菜(Porphyra yezoensis Ueda 03B)自由丝状体和坛紫菜(Porphyrahaitanensis)自由丝状体为实验材料,分别用包埋脱水法和包埋-玻璃化法对两种材料进行了超低温(-196
随着多媒体技术、网络技术以及数字信号处理技术在嵌入式领域的广泛应用,嵌入式处理器的性能要求逐步提高。为了降低功率及提高性能,MPSOC(Multi-Processor System-On-Chip)
热纤梭菌是一种嗜热、厌氧的革兰氏阳性细菌,它对纤维素的降解是通过在其胞外的一个由多种纤维素酶分子高度有序组织形成的超分子催化机器-纤维小体来完成的。纤维小体可以将
随着经济的发展、社会的进步、物质水平不断提高,人类赖以生存的自然环境也受到前所未有的挑战和破坏,环境污染问题越来越受到社会的关注,尤其是大气污染。氮氧化物(NO_x)大气的
无线传感网具有低功耗,低成本,自组织等特性,现已被广泛应用于环境检测,目标追踪,交通监测,农业自动化等领域。在无线传感网中,无线链路不可靠,数据丢包严重;且由于无线传感网
合成孔径雷达(SAR)作为一种成像雷达,高分辨率是其追求的首要目标。然而传统条带SAR的方位向分辨率受天线方位向尺寸的限制,减小天线尺寸可以提高方位分辨率,但却降低了天线的增