基于图的查询相关多文档摘要研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:aklehigh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询相关的多文档摘要技术依据给定的查询,将多篇相关文档的内容浓缩为一个简洁、流畅、并能反映主题内容的摘要。该技术能够大大提高人们获取信息的效率,近年来一直是自然语言处理领域的研究热点之一。基于句子抽取的方法是当前主流的摘要方法,其核心在于如何对句子打分。在本文中,我们对基于图的句子打分算法进行了系统而深入的研究,我们的工作包括:   (一)深入分析和解释了一些经典的图排序摘要算法。给出了类PageRank摘要算法LexRank非常直观的“投票”解释。揭示了类PageRank摘要算法和类HITS摘要算法之间存在的紧密联系。我们还发现,引入除了句子-句子相似度这种简单二元关系之外之外更多的信息有助于生成更好的摘要。此外,我们还提出了一种适用于查询相关摘要的类HITS摘要算法。   (二)提出了一种基于图的半指导学习摘要算法。基于图的半指导学习的流形假设能很好地与摘要任务吻合。由此我们可以把句子打分转换为流形学习问题。我们对该算法作了严格的理论分析,证明了其收敛性,并给出了该算法的得分传播以及随机游走模型解释。   (三)提出了基于超图的文档表示模型和半指导学习摘要算法。受到“引入句子-句子相似度之外更多的信息有助于生成更好的摘要”这一结论启发。我们提出用超图表示文档并给出了一种基于超图的半指导学习摘要算法。同样的我们证明了该算法的收敛性并给出了合理的得分传播解释。   通过上述研究,我们构建了一个查询相关的文档摘要系统。为了获取高质量的摘要我们还对句子做了前后处理等一系列操作,包括句子精简,去除冗余信息,句子重排序等。最终我们构建出一个基于图/超图的半指导学习句子打分的自动摘要系统。我们在DUC两年(DUC2006和DUC2007)的语料上进行了实验,在这两组语料上我们的摘要系统基本上都达到了最好的水平。  
其他文献
在深亚微米工艺下,众核处理器芯片设计遇到了来自以下几方面的挑战:由于晶体管面积不断减小,单位面积上的功耗在不断上升;芯片面积不断增大导致时钟网络非常容易受到在片波动的影
目标检测算法的目标是在没有人工干预的情况下,利用计算机视觉的方法,从摄像机拍摄下来的视频图像序列中快速、准确的检测出前景运动目标,并对目标进行定位和识别。目标检测
本文从搜索引擎搜集网页,去除网页中的噪音和冗余的角度,对收集到的网页集合做网页正文提取,得到与主题相关的文字内容,用于后续的内容分析(分词、主题词识别、摘要等等)和检
搜索引擎从海量数据中按需为用户检索信息,如何让用户快速理解检索结果,并从中筛选出真正符合检索需求的网页?在这个课题中,网页关键信息的发掘与提取发挥着重要作用。本文从
入21世纪,人类社会正在由信息社会迈向知识社会,掌握知识、勇于创新的人才成为企业和组织中最有价值的资源。无论是科学研究机构,还是社会生产部门(如企业、工厂),都需要那些
民主选举作为社会民主与进步的重要表现形式,同时也是公民参政议政的主要途径,大力发展社会主义民主政治、建设社会主义政治文明是新时期中国特色社会主义现代化建设的重要目标
随着工艺尺寸的加深,工艺偏差、串扰效应、电源噪声以及互连线的阻性开路与短路给通路的传播时廷带来了极大的不确定性。这种通路传播时延的不确定性被统称为时延偏差。时延偏
随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在。如何快速、方便、
软件过程对于提升产品质量和生产率意义重大。过程构造是过程管理活动的起点,其重要性不言而喻。然而,它也是一项复杂的、动态的、知识密集型的活动,需要耗费大量的时间和资源。
学位
近年来,作为互联网上用户生成内容(User Generated Content)的形式之一,协同标签系统(Collaborative Tagging Systems)也越来越流行。随着标签系统的发展,在该应用背景下的用