语句压缩及其应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:Jiang0596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着各类信息的日益增多,人们对信息处理的需求促进了自然语言处理技术的空前发展。与此同时,人们对如何在海量的信息中及时找出有价值的信息越来越关注,语句压缩作为自然语言处理的基础日益受到研究者的关注。语句压缩可以应用于自动摘要、自动标题、搜索引擎和话题检测等诸多任务中。目前,主流的语句压缩研究主要基于语料驱动的监督模型。本文采用监督模型中的判别式模型,通过学习成分句法树的剪裁实现语句压缩。本文的研究内容主要包括以下几个方面:1、基于结构化学习的语句压缩研究。首先,使用匹配抽取的方式构建中文平行语料库;然后,提出语料库扩展方式,为解决语料库规模小的问题提供了新思路;最后,使用结构化学习算法学习源语句成分句法树的剪裁过程,并实现语句压缩。实验结果表明,基于结构化学习的语句压缩模型具有很好的性能,且提出的语料库扩展方式具有可行性。2、语句压缩解码方法研究。在基于判别式模型的方法下,提出使用整型规划方法解码。通过将语句压缩问题转换为整型规划问题实现最优目标语句的查询,该解码方法能在保持较好的压缩率的情况下保留源语句的主要信息。3、语句压缩评测指标研究。针对语句压缩缺乏合适的自动评测指标,本文在基于单词删除的语句压缩系统中,引入了BLEU和N-Gram两种评测指标用于评测语句压缩性能,并通过实验验证了这两种评测指标的适用性。4、语句压缩的应用研究。以语句压缩的应用为切入点,将语句压缩系统应用于多文档自动文摘任务中。实验结果表明压缩系统在多文档自动文摘中能够删除部分句子级别的非重要信息且不影响文摘的可读性。
其他文献
主题爬虫有选择性地采集互联网中网页资源,这些网页资源都必须是用户所给定主题相关的,即网页内容是用户所感兴趣的。在经典主题爬虫中,如果文档词项集与主题词项集没有相同词项
无线传感器网络(Wireless Sensor Networks, WSNs)是一种飞速发展的新兴网络,是将传感器节点随机部署在指定区域并自组织成的无线多跳通信网络。WSNs综合了传感、信息处理和嵌
随着计算机设备的不断更新换代和网络全球化的快速发展,数据库技术得到了越来越广泛的应用,数据库共享已经变成了一种普遍现象,越来越多的个人信息记录被不同的部门和机构大量收
近年来,无线传感器网络已经广泛应用于各种领域,且应用类型多种多样。无线传感器网络没有固定的基础设施,由一定数量的无线传感器组成。这些传感器节点是可移动的,带有RF收发器等
随着多媒体技术和计算机网络的发展,在数据库技术与计算机视觉的共同作用下,图像检索已经成数字图像处理的一个重要领域和研究热点。基于内容的图像检索技术优于传统的检索方法
近年来,由于互联网资源的逐渐多样化与分布式存储,基于P2P技术的分布式FTP搜索引擎已成为FTP资源搜索的研究热点,其中,索引技术一直是提高FTP检索效率的关键。针对FTP资源检
近年来,数字图像真实性的检测和判定已经逐渐成为图像自动化处理领域的一个重要分支。它非常广泛地应用于现代社会生活的各个方面,如司法取证,商标防伪,医学图像检测等。数字图像
随着计算机科学的迅速发展,笔迹鉴别技术在信息安全、刑事侦查和经济安全等相关领域发挥了至关重要的作用。我国是一个多民族国家,维吾尔族是人口较多的少数民族之一,其主要分布
随着Web服务技术的迅速发展,越来越多Web服务被发布到Internet上,但是单个Web服务因为其功能局限性,难以满足用户复杂的需求,将多个Web服务进行组合成为一条解决该问题的有效途径
互联网技术的高速发展使得在线购物得到极大普及,国内以淘宝、京东为代表的各类电子商务网站发展尤为迅猛。在线商品交易需要在网页中对商品属性信息进行尽可能详细的展示,这使