基于互增强流形排序的多文档自动摘要方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:R845451732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起,网络中的数据量呈指数增长,人们的生活节奏加快,如何从海量数据中高效获取所需信息已经成为了现如今亟待解决的问题。自动摘要技术能够对文本信息进行融合、压缩,在保留文档重要内容的同时减少文本大小,该技术是解决这一问题、克服这一障碍的关键。本文以在线英文新闻为研究对象,以期为用户提供简洁、全面的摘要,提高用户获取信息的效率。本文使用的基于互增强流形排序的多文档自动摘要方法,通过句子、词语以及主题簇彼此之间的相互增强关系,提高句子提取的质量,减少冗余信息,并将该方法用于基于查询的提取多文档自动摘要模型中。本研究的主要内容和结论如下:(1)识别主题簇对数据预处理后得到词语集、句子集和簇集,通过给定的查询对数据对象间的关系进行聚类分析,将数据对象进行分类,使得同类集合对象之间的相似度较高,不同类集合之间的相似度较低,从而达到聚类的效果,并且将与给定查询相似度较高的集合确定为主题簇。(2)句子排序和控制冗余通过词语集、句子集和主题簇集内部之间相关性传播,词语集、句子集以及主题簇集之间彼此进行相互增强构建提取摘要模型。在词语集、句子集和主题簇集的每个集合内部构建一个加权图,其中每个数据顶点表示查询、词语、句子和主题簇。词语集、句子集以及主题簇集之间彼此进行相互增强,上述两个过程可以依次或组合进行,直至达到全局稳定状态,所有数据对象都获得排序分数。将得到的数据对象进行筛选,过滤掉冗余信息,提取分数较高的数据对象作为摘要句,生成摘要。质量评测进行全面的实验研究来验证这两种算法模型的有效性。用自动评测工具包ROUGE进行评测。ROUGE通过计算系统生成的摘要和人工参考摘要之间重叠的单位来衡量摘要内容的质量。本文中采用方法分析准确率和召回率比率,同时与其他摘要方法进行对比。实验结果表明,在TAC 2008A,TAC 2008B,TAC 2009A和TAC 2009B数据集上,本文研究的基于互增强流形排序的多文档自动摘要方法在提取摘要的质量方面略优于参加DUC/TAC比赛前三的系统计算出的ROUGE值相当,并且通过误差检验,误差较小,可以把实验分析的结果作为结论,进一步说明了在自动摘要方法中整合词语级和主题簇信息的必要性。
其他文献
信托业是我国经济和金融的重要组成部分,自1979年第一家专业信托公司成立以来,凭借制度优势,行业发展迅猛。随着信托行业管理资产规模快速扩张,面临的各类风险也不断显现,信托行业整体风险项目个数及风险资产规模近年呈波动上升趋势,2019年三季度末风险率增至2.10%,为历史峰值,“暴雷”违约事件中,工商企业类信托项目风险尤为突出,信托业风险管理面临着一定的挑战。在此背景下,F信托公司管理的工商企业类信
复合材料因其强度大、刚度高、性能可设计等优点而在航空航天结构中广泛应用,但复合材料结构在长期交变载荷作用下,不可避免地会产生分层损伤。分层损伤作为复合材料层合板结构中最容易发生的一种损伤形式,会不断扩展导致结构强度和稳定性的急剧下降,甚至可能造成结构的灾难性破坏。因此在疲劳载荷作用下对复合材料结构进行持续监测并预测其剩余寿命是当前结构健康监测领域的一个热点,有着重要的研究意义和工程应用价值。本文首
深海机械手是海洋探测的必要装备,现有液压驱动工业级深海机械手体积庞大且手部为钳指型结构不够灵活,难以在小型潜航器上应用、难以捕获活动的海洋生物;灵活的小型水下机械手多选用电磁式无刷电机作为作动器,采用充油方法平衡海水压力。但随着水深增加水压增大,密封元件的变形不仅导致电机输出能力的下降而且还伴有海水渗入或油液泄漏的可能。本课题面向微小型潜航器配备水下灵巧机械手的应用需求,利用压电激励和摩擦驱动原理
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间
近几年,在技术、市场与国家政策的共同推动下,我国“互联网+教育”的发展进入了快车道,这让教育的内容与形式都更加的多元化,教育资源的分配也愈加的公平合理,与此同时在线教育企业也面临着越来越大的竞争。在线教育企业要想不断的扩大企业影响力,增加经济效益,除了要加强在线教育系统研发技术的提升、课程质量以及服务水平的提高以外,绩效管理的方式,绩效考核的科学性、完善性、灵敏性等,都在一定程度上左右着企业战略目
学位
自动回复是指对于用户提出的问题系统能够自动的为用户提供一个答案,在自动回复任务中,大多数问题和答案之间词汇的重合率和相似度并不高,很难仅使用单词匹配和特征提取的方
飞行模拟器是民用航空与军用航空中飞行员训练不可或缺的关键训练设备。借助头盔显示器开发的基于虚拟现实技术的轻量级模拟器舱内外视景均由计算机生成,通过改变视景可实现不同机型重配置,使用灵活,沉浸感好,因而受到广泛关注。但是由于佩戴了头盔显示器,飞行员在模拟训练过程中无法直接看到自身的手,因此交互性受到严重影响。为实现自然、和谐的人机交互,本文主要开展基于计算机视觉的手部交互技术研究。鉴于表观方法在计算
提高生产效率、降低生产成本是企业在现代化发展中需持续关注的焦点话题。企业若想在市场竞争趋于白热化的环境中脱颖而出,那么对其生产调度进行持续性优化是非常有必要的举
The key to achieve autonomous control of robot,and also an important topic in mobile robotics field is Simultaneous localization and mapping(SLAM).A mobile robo
燃烧室中的燃烧现象复杂,温度很高,多种物理过程强烈耦合,其中传热方面多种传热方式共同作用于燃烧过程。通过实验研究燃烧室内的燃烧情况难度较大,实验数据难以获取且数据有限。目前高精度数值方法发展迅速,对燃烧室的燃烧仿真研究受到广泛关注。然而,目前的燃烧仿真大多仅考虑燃烧现象而忽略了多种传热方式对燃烧过程的影响,通过文献调研发现,燃烧室中的传热现象对燃烧仿真结果的准确性有较大影响。因此本文基于新型的高精