【摘 要】
:
互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语
论文部分内容阅读
互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语言处理任务,自动摘要技术的挑战在于摘要的评价指标无法精准量化,极具主观性,而且自动摘要往往深受冗余信息的困扰。目前主流的自动摘要算法是通过预先定义某个指标,对所有句子进行打分,然后对句子排序并抽取top-k作为生成摘要。然而这些抽取排序模型一方面对句子独立打分,孤立了句子之间的联系,忽略了文章的结构信息;一方面选取的评分指标通常是词素级别或者统计特征,缺乏语义信息。针对这些缺点,我们设想一个高质量的摘要能够很好地还原原文的语义,进而提出了语义重构模型:通过寻找能够以最小损失重构原文语义的句子集作为最后的生成摘要。本文的工作主要包括两个方面:(1)针对词袋模型的高维稀疏、缺乏语义信息的现象,设计了两种简单有效的语义向量化方式表示文本,分别是基于神经语言模型的词嵌入加权方法和基于多层自编码网络的深度降维方法。并通过句子分类实验证明了这两种向量化方式都能得到紧凑且具有语义的文本表示。(2)分别设计了基于二次规划的线性重构策略和更为平滑灵活的非线性重构策略,以得到能最佳还原原文的句子并作为结果摘要。另外通过冗余消减手段在改进了重构策略并提高了摘要质量。最后在DUC标准数据集上的摘要实验对比,证明了本文的语义重构模型的合理性和有效性。
其他文献
随着互联网与分布式技术的快速发展,面向服务的体系结构(SOA)得到了学术界和工业界的青睐和广泛应用。作为一种基于互联网标准和XML规范的新型分布式计算模型和实现SOA的主要
该文全面论述了移动Agent技术的发展、概念、理论和应用.然后,通过与传统技术的比较分析,对移动Agent技术进行了评价.提出了一个新的观点:移动Agent的实质是信息与服务的分离
该论文主要介绍了自由软件及其优秀代表Linux操作系统. 文中详细论述了自由软件的起源及其通用公共许可证,并分析了自由软件的特色、开发模式及其对中国的意义.文中详细论述
通过打印日志来增进调试是软件故障诊断中常用的方法。而在实际中相关日志缺失情况严重。对此我们针对一个具体的错误情景来增加日志以增进故障诊断:数组越界检查。静态数组
医疗信息交换平台,是连接医疗卫生机构基本业务信息系统的居民电子病历交换和共享平台,是不同医疗系统间进行医疗行业数据整合的基础和载体,可以使区域内、外的医疗信息实现共享。在全中国范围内,人口流动性大,医疗信息化建设不均衡,导致患者电子病历文件难以共享的局面。为了整合卫生信息资源,减少重复投资,实现卫生数据共享和交换,本文的具体研究工作如下:首先,提出基于区域的医疗信息交换平台扮演“邮局”的角色,以个
本文首先阐述了Internet的发展对数据库技术的影响,简要的介绍了目前流行的Web开发工具,并进行比较。然后针对Browser/Server系统的主要问题和技术要点,概括了使用CGI开发一
病毒式营销被认为是最有效的营销方式之一,借助人与人之间的影响作用实现营销信息在消费者之间自发的扩散。随着信息技术的迅猛发展,大量在线社交网站和社会媒体网站涌现并成为
近几十年来,随着时间序列数据的飞速增加,以及数据挖掘技术在多个领域的广泛应用,时间序列数据的学习得到了越来越多的关注。这些时间序列数据不仅仅包含文本数据,更包含如图像、