面向查询多文档文摘的文摘句选择与排序研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:amaozh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展促进了信息处理技术地不断进步。面向查询的多文档自动文摘技术任务是基于特定的查询,将大量的查询结果文档中的相关内容浓缩为一个既与查询相关,并且内容简洁、满足个性化需求的文摘,它能够回答查询提出的问题,因此更具有针对性,更能适应当前互联网环境下对信息获取的个性化需要,因为它既考虑到了用户的查询条件,又考虑了文档集包含的主要内容。本文的主要工作包括以下几个方面:第一,本文提出了一种以关键词语抽取为核心的文摘句选择策略。通过查询扩展相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计得到语料中词语的话题相关性特征,并将这两个特征值进行特征线性融合得到词语的重要度以确定关键词语。然后通过关键词语重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的总得分,最后挑选出文摘句。本文将特征融合引入到词语层面,能够在更细的层面上刻画出句子信息,能够选择出更符合需要的文摘句。第二,本文提出了一种聚类与模板融合的文摘句排序策略。将文摘句集合聚类成子话题集可以保证文摘句的话题不中断,根据文档的文摘代表性选择模板来为文摘句排序可以保证文摘句在逻辑上是连贯的。子话题间采用子话题在模板中的相对位置进行排序,子话题内采用文摘句在模板中的绝对位置进行排序。实验结果显示,本文所提出的方法有效地提高了文摘的可读性。实验结果表明,以关键词抽取为核心的文摘句选择策略和聚类与模板融合的文摘句排序策略都取得了比较好的效果,有效地提高了文摘的质量。
其他文献
随着互联网的发展,网络信息已经成为一种人们熟知的便捷信息来源,但网络上大量的色情淫秽等不良信息已经严重干扰了人们正常的网络生活。由于图像比文本具有更丰富的信息,相
随着互联网规模的不断增长和网络技术的发展,网络趋向于大规模、高速、大容量、应用多元化等方面发展,随之而来的拥塞问题变得越来越严重。网络产生拥塞的原因在于其面对的负
随着计算机技术,特别是三维技术的飞速发展。可视化技术已广泛应用到科学研究、工程、军事、医学、经济等各个领域。在可视化系统开发的开发过程中,对三维模型与场景进行编辑是
智能规划是人工智能中一个重要研究领域,基于状态空间启发式搜索的规划方法是该领域的一个热点。具有代表性的三个启发式规划器为:HSP、FF和Fast Downward,其中基于和代价启
集散节点分布在P2P(Peer-to-Peer)网络中必定会降低整个P2P系统的服务性能和质量,加重了网络的脆弱性。因此,如何避免集散节点的形成及控制集散节点的数量,成为P2P网络可持续
随着计算机系统在工业控制领域的应用越来越广泛,如何方便、有效地对这些系统中运行的软件进行远程配置,比如安装、卸载、更新软件,以及如何对设备的故障进行简单的远程诊断
人工蜂群算法是一种基于蜜蜂采蜜行为的新兴的群体智能优化算法,由于其控制参数少、易于实现、计算简洁等特点,近年来备受研究者关注。而基本人工蜂群算法仍然存在着进化后期
随着P2P技术的迅猛发展,需求与应用不断更新、用户数量急剧增加,P2P系统本身及其所处的网络环境均呈现出高复杂性的增长趋势。面临这种情形,当前用于构造P2P系统的思想、方法
本文研究了基于粗糙集的决策树技术在体检系统中的应用。针对体检信息的特点,将粗糙集理论和决策树技术相结合,给出了一种变精度分支汇总粗糙度决策模型。首先分析对比较为成
学位