基于主次关系的中文文本摘要研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zhjkkcd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘研究是自然语言处理领域的研究热点之一,它能够有效地帮助人们从海量的互联网信息中快速筛选出有用信息。然而,传统的自动文摘研究大多集中在对文本语义信息的利用,而忽略了文本的结构信息对于摘要任务的作用,这一缺陷在中文自动文摘中尤为突出。相比于英文文本,中文文本具有更加复杂丰富的篇章结构信息,而篇章结构信息尤其是主次关系信息对于定位文档核心内容、总结文档核心思想具有举足轻重的作用。因此,本文开展了基于主次关系的中文文本摘要研究,具体的研究内容可以分为以下三个方面:首先,针对主次关系中的核心句往往是抽取式文摘的摘要句这一特点,本文提出了一种基于主次关系的抽取式文本摘要方法。该方法首先获得句子的主次关系的序列化信息,然后利用神经网络对句子信息和主次关系进行信息增强和语义编码,并根据编码结果获得句子的重要性,最后抽取文本摘要。实验结果表明,该方法与当前主流的抽取式摘要方法相比,在摘要的准确性、稳定性和ROUGE评价指标上均有显著的提高。其次,针对目前生成式文摘较少使用文本结构信息的问题,本文提出了一种基于主次关系的生成式文本摘要方法。该方法使用图卷积神经网络对主次结构信息进行编码,并和语义信息相融合作为文本表征,采用端到端的文本生成模型进行摘要生成。实验结果表明,该方法能够较好地融合语义信息和主次结构信息,大幅度提升了生成摘要的质量。最后,针对大部分文本缺失主次关系信息的问题,本文提出了一种基于联合学习的主次关系识别与文本摘要方法。该方法将摘要抽取作为主任务,主次关系识别作为辅助任务,二者联合学习的方式来提高摘要抽取的准确性。实验结果表明,该方法在文本缺失主次关系标记的情况下也能够有效地发挥主次关系信息对于摘要任务的指导作用,得到高质量的摘要。
其他文献
随着开放获取运动的开展,学术论文全文、审稿人意见等资料越来越容易被获取,这些文本资料中蕴含着大量的有用信息,可以为学术论文创新力评价提供新的视角和方法。同时,随着自然语言处理技术的不断成熟,其应用领域也在不断扩大,越来越多的领域都在使用自然语言处理技术来完成特定的研究或工作,在评价计量学领域中,自然语言处理技术的应用也成为了研究的重点和热点。本文借助文本挖掘技术,从审稿人的评论文本中,挖掘出有关创
学位
水资源是人类生存的基础性自然资源,随着工业化和城市化的进程加快,水资源的持续消耗与工业废水排放增加,我国水环境问题日益突出。国际间进行贸易交流时往往伴随着资源的转移,一部分隐含的废水出口到国外或是进口到国内,这一过程中水污染压力随之转移。因此研究我国工业贸易隐含废水排放及其治理机制,亟需从虚拟水视角对工业出口贸易的隐含废水进行测算,明确工业贸易隐含污染中工业废水排放的过程及其影响因素,并对工业贸易
学位
随着当前国际科技竞争态势日益复杂,建设科技强国成为我国实现高质量发展的战略新需求,我国需要依靠自身力量解决科技创新活动“卡脖子”现象与从0到1的原创性成果欠缺的难题。就我国科技创新发展现状而言,我国现仍存在科技资源配置不合理、科技创新投入产出效率低的问题。产学研协同创新的出现打破了创新主体固有的创新模式,创新主体可以通过合作实现技术与知识的有效融合,从而实现科学的科技资源配置,提高科技创新效率。因
学位
第一部分焦亡与大鼠脑缺血再灌注损伤的相关性研究目的:研究大鼠脑缺血再灌注损伤(ischemia/reperfusion,I/R)模型中,NLRP3炎症体相关蛋白包括凋亡相关斑点样蛋白(Apoptosis-associated speck-like protein containing a CARD,ASC),NLRP3,半胱氨酸天冬氨酸酶-1前体(pro-Caspases-1),半胱氨酸天冬氨酸酶
学位
随着高质量共建“一带一路”不断推进,中国企业走出国门,并与“一带一路”沿线市场企业组建了技术标准联盟这一全新的组织方式。面向“一带一路”企业技术标准联盟对于推动中国技术标准引领产品、技术和服务等全要素“走出去”具有重要作用。因此,研究其运行模式和实现路径有助于了解和掌握联盟运行情况,对中国企业如何选择适宜的运行模式,实现高效“走出去”具有一定的实践参考价值。论文分别使用扎根理论研究、系统动力学仿真
学位
信息隐藏作为一种保障信息安全的重要技术,可以在不被第三方察觉的情况下,把信息通过特定的方式嵌入公开载体中并完成信息传递。文本已被广泛应用于日常生活中,成为人们传递信息最常用的媒介之一。文本信息隐藏技术采用文本作为隐藏信息的载体。早期的文本信息隐藏方法大多采用修改载体内容的方式嵌入秘密信息,因此很难抵抗各类隐写分析检测。为了解决上述问题,无载体信息隐藏技术应运而生。该技术强调不修改载体本身,而是从文
学位
近年来,在我国社会发展以及经济发展的推动下,科学技术水平有了很大程度的提高,PLC技术作为新兴科技在多个领域中得到了推广与应用,将其应用到电气工程及其自动化控制中对进一步提升工程效率以及提高自动化控制水平有重要的作用。基于此,文章以PLC技术在电气工程及其自动化控制中的应用为研究内容展开了深入的探讨,先分析了将该技术运用到电气工程及其自动化中的价值和优势,进而具体探讨了PLC技术的具体应用策略,以
期刊
近年来,随着互联网的普及,网络用户迅速增长,网络环境也日益复杂。为处理网络中成倍增长的数据,各式各样的互联网技术也随之出现。无论在网络上还是日常交流中,语言自出现伊始便一直担任着人们交流的媒介,应用于人们生活的方方面面。为了处理网络环境下的大量语言文本信息,自然语言处理技术开始出现并迅速发展,随后广泛应用于网络数据的处理。如基于分类任务的情感分析,新闻分类和基于生成任务的文本摘要和机器翻译等。但自
学位
实验室综合管理信息系统已是国家重点实验室下设测试分析中心实验室管理的必要工具,可实现全方位、全流程实验室精细化管理。地表过程与资源生态国家重点实验室的综合管理系统是涵盖实验室资源管理、人员管理、安全管理、数据管理的一站式服务和管理平台,实现了规范化、智能化和流程化的实验室管理机制,显著提高了实验室管理水平和工作效率。对实验室综合管理系统运行统计数据进一步分析,并对实验室管理系统的运行状况与问题进行
期刊
近年来,随着“知识经济”的提出,科技创新日益成为全球经济发展中的核心竞争力,打破知识生产与知识开发利用之间的界限成为一种必然趋势。学术创业作为科研机构、大学、大学教师、科研人员等积极参与创新创业的重要途径,极大地促进了区域经济的发展和社会科技的进步。然而,国内一系列鼓励科研人员进行学术创业的政策并没有真正激起科研人员学术创业的热情,我国参与学术创业活动的科研人员数量少,规模小。创业动机是激发学术创
学位