基于子主题的多文档文摘技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gtghs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们在获得有效信息的同时,也被越来越多的冗余信息所困扰。因此迫切需要一个帮助人们快速浏览工具,该工具通过对相似文档集合的加工整理,将这些文档的重要的、全面的信息直接提供给用户,从而提高了人们获取信息的效率。因此多文档文摘的研究逐渐成为研究的热点。 多文档文摘是一种文本压缩技术,它将同一主题的文档进行汇总和整理,将多文档集合中的多次重复信息以一次出现在文摘中,其他与主题相关的信息根据重要性及压缩比依次进行抽取。 本论文通过对多文档集合的分析,打破由同一主题独立文本组成多文档集合的物理结构,通过将意义相同的句子组合在一起,建立多文档集合的子主题结构,在此基础上进行文摘句的抽取和排序工作。与传统的方法相比,具有以下优点:多文档集合以子主题的形式表示,使文摘内容具有更好的平衡性;对子主题进行比较和排序,按压缩比进行文摘句的优化抽取,将重要信息抽取出来,使得到的多文档文摘包含的信息简洁全面;多文档集合子主题形式的提出为多文档文摘的深入研究奠定基础。本论文着重对以下问题进行了研究: 1、对句子相似度计算进行深入研究,提出了多特征融合的句子相似度计算方法。句子相似度计算是多文档文摘的基础,本文首先根据句子不同特征分别计算句子的相似度,在此基础上,将这些特征进行融合,可以更准确的刻画句子之间相似度,为下一步工作奠定基础。 2、提出了根据阈值自动确定多文档集合子主题的方法。在句子相似度计算的基础上,将相似的句子合并为一个类,每类代表一个子主题。在阈值的训练以及聚类的方法上,分别对基于半偏相关系数为阈值的层次聚类和基于类间最小距离阈值的层次聚类进行研究,同时根据多文档集合相似度分布曲线,提出了描述多文档集合的泊松分布模型。 3、提出了句子的优化选择方法。为了保证文摘在有限的空间要求下,尽可能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题内的句子的优化选择两个阶段。文中给出了子主题打分和排序方法,最后以信息覆盖率为优化目标,对子主题内句子优化选择。 4、提出了多文档文摘中文摘句的排序策略及流利度评价方法。为了使用户正确理解原文的内容,使生成的文摘具有较好的可读性,需要对文摘句排序方法进行研究。本论文提出了几种文摘句的排序方法,同时给出了流利度自动评价方法,并将该方法与人工评价方法进行比较,最终确定合适的排序方法。 本论文提出了针对同一主题相同时间不同网源的文本集合的多文档文摘方法,是对多文档自动文摘初步探索,取得了一定的研究成果。多文档文摘无论作为独立的系统还是作为搜索引擎的一部分都将有广泛的应用前景,随着互联网的发展和时代的进步会有更多地发展空间。
其他文献
MANET(Mobile Ad hoc Network)网络是在没有任何现存网络基础设施或是集中管理的情况下动态形成的多跳无线移动网络,有着广泛的应用。在有中心节点的蜂窝网络中,资源的分配比
虚拟现实技术是近年来新兴的一项综合性信息技术,它融合多种信息技术的最新发展成果,为人们创建和体验虚拟世界提供了强有力的支持,并广泛应用到了社会的各个领域。同时近年
软交换是NGN(Next Generation Network)体系结构中的关键技术,其目的是为了能够在不同的网络上同时提供语音、数据和多媒体业务。其核心思想是将硬件软件化,通过软件实现原有
选举问题和时钟同步问题是分布式计算中的两个基本问题。本文主要围绕这两个问题展开研究,提出了一个自稳定的选举算法和一个基于Ad Hoc网络的时钟同步算法。选举问题一直受
人脸识别是计算机视觉和模式识别领域的一个重要研究方向。人脸图像由于维数过高,训练样本少,及光照、表情、局部遮挡等不可控因素的变化,使人脸识别问题面临很大的挑战。特别在
计算机技术和网络技术的飞速发展,在给教育带来了巨大的冲击力的同时,也带来了无限的生机。教育不再局限于传统的课堂式教学,也不再停留于单一媒体,基于网络的远程教学成为一
随着计算机图形学和硬件技术的高速发展,计算机动画已渗透到人们生活的各个角落,成为现代影视特技及影视动画制作中不可或缺的手段,各种各样的平面、三维计算机特技制作技术给观
学位
随着国内经济与世界经济的高速发展,这给民航业带来了难得的发展机遇,但民航运输业的飞速发展,飞行流量的大幅度增加,也给航空安全生产造成严重影响。对此,民航空中交通管理
当今世界,电信领域的技术发展一日千里,日益复杂的网络环境,不断扩大的软件规模,对网管系统的管理功能提出了更高的要求。安全管理作为网管系统的重要组成部分,也面临着更大的挑战
高温超导磁悬浮车高速运行时,必须实时检测运动速度作为车体运动控制依据。就此,本文详细介绍了速度测量仪的设计过程。 首先分析了各种测速方法,根据车体的运行环境,选择