基于文本修辞关系和篇章特征分析的中文自动文摘研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:anyjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘是自然语言处理领域的一项重要的研究内容。目前,自动摘要的研究取得了较大的发展,但同人们的期望仍然有较大差距。本文提出基于文本修辞结构和篇章特征分析的中文自动文摘方法,较好地克服了机械文摘的浅层性和理解文摘的领域局限性,并能实现文摘系统的可移植性和自适应长度等功能,主要有以下内容: (1)分析了实现自动文摘的常用方法,提出了以修辞分析为主、篇章特征统计分析为辅的文摘方法。利用修辞关系规划文本逻辑结构,再通过修辞结构分析获取文本主题的方法,避免了机械文摘和理解文摘在文本理解上的缺陷。 (2)在修辞分析的基础上,引入成熟的统计方法对篇章特征进行分析,通过评测词条权重、句子权重等信息,对修辞分析结果进行辅助决策,进一步抽取文章主题,提高了文摘质量。 (3)针对本文应用,提出采用双词典设计的中文分词系统,将修辞词独立组成词典,并实现预分词,提高了修辞词的查准率和查全率;同时,将歧义处理分为真歧义和伪歧义来分别处理,并对现有的双向最大扫描算法进行了改进,降低了算法的复杂度,提高了常规分词的精度和速度。 (4)从保证系统的可移植性出发,将修辞词单独组织成修辞词词典,并将修辞词典和识别规则进行模块化设计,初步实现了面向多领域的可移植性。 (5)针对摘要的自适应长度控制和优化聚合,给出了给定摘要比例和摘要句数两种控制长度方法,提高了文摘的灵活性和可阅读性。
其他文献
大数据分析是大数据应用的主要方向,传统的RDBMS的由于扩展性差,大数据下IO压力大,数据分析效率低下等问题,已经很难适应海量数据管理的需求。将HBase应用到业务系统做大数据分析
云存储系统作为快速存储大数据的一种方式,也是大数据的主要存储平台,其能耗问题已经成为当前大数据应用当中亟待解决的重要问题。云存储系统中数据块副本放置策略,磁盘状态,CPU
随着网络技术的飞速发展,当前通信网络带宽和处理能力的提高使网络能够提供更多的多媒体业务,也使得支持“点到多点”或“多点到多点”的组播通信方式成为网络支持多媒体业务的
学位
对用户需求的持续响应要求软件开发迭代周期不断缩短,促使在线应用系统的开发模式向持续交付转变。新的开发模式使得系统性能保障面临更大挑战。系统升级上线后出现服务失效、
对象管理组织OMG(Obiect Management Group)提出的模型驱动架构MDA(ModelDriven Architecture)是解决不同中间件平台之间的集成以及技术升级所引起的问题的软件开发方法。MDA
近几年来,虚拟现实技术的应用与研究得到迅速的发展,它是一门涉及计算机图形学、人工智能、多媒体技术以及人机接口技术等诸多领域的新兴技术,在许多领域具有广泛的应用前景,日渐
介绍了图像欠量化方法的研究背景、研究意义及国内外研究现状。以图像矢量化过程中的预处理技术为基础,并根据矢量化对象的不同,将图像矢量化方法分为简单色调图矢量化及复杂色
随着Peer-to-Peer(P2P)技术的不断发展,其影响越来越大,应用范围越来越广。P2P系统的开放性和自治性,使得P2P系统的安全性成为一个具有挑战性的课题。其中一个重要的安全问题就
学位
机器翻译技术已有60多年的发展历史。60多年里,各种翻译方法和商业机器翻译系统不断涌现。随着信息的急剧增加、国际交流的日趋频繁以及计算机网络的迅速发展、普及,人们对机器
计算机网络技术的飞速发展,给全球带来了革命性的变化。然而,计算机病毒扩散、网络黑客攻击、计算机网络犯罪日益严重,计算机网络安全问题成为人们普遍关注的问题。   计算机
学位