基于指代消解的自动文摘研究

来源 :浙江大学 | 被引量 : 4次 | 上传用户:isgongping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断进步及互联网的快速普及,互联网上的各类信息正以爆炸式的趋势发展,它在带给人们丰富充足的海量信息的同时,也给我们快速有效的搜索到最有用的信息为目标的网上冲浪带来了非常大的困扰和挑战。自动文摘技术是自然语言处理领域中一项热门的研究课题,主要是研究利用计算机从自然语言文本中如何准确地自动提炼出较少的文字,这些文字可以全面的反映原文本所包含的主要信息。其本质是对原文中心内容的信息挖掘和浓缩。目前已有的自动文摘方法主要分为四种:自动摘录、基于结构的自动文摘、基于理解的自动文摘和信息抽取方法。作为自然语言处理的另一个分支——指代消解,它是自然语言处理的重点和难点问题之一,在机器翻译、自动文摘、自动问答系统、多语言处理技术等诸多应用中起着非常重要的作用。近年来,指代消解领域非常流行基于句法分析和基于语料库的两种研究方法。其中,基于语料库常用方法主要有四种:基于规则的方法、基于统计的方法、基于分类的方法和具有中文特色的研究方案。本文对自动文摘和指代消解的定义、分类、研究现状和方法进行了相应的介绍,并进行了以下研究工作:1.将多特征信息组合的规则方法应用于中文指代消解,并采用基于主语核心词-谓语核心词、谓语核心词-宾语核心词词语共现和有限窗口结合的概率统计思想改进指代消解算法。2.综合应用段落主题划分思想及篇章结构分析以改进自动文摘结果。3.设计并实现了一个简单的金融领域自动文摘系统,通过实验验证了所研究的自动文摘算法在一定程度上提高了文摘生成的准确率和可理解程度。本文的自动文摘算法还有待改进,可以从以下几个方面开展深入研究:名词词组识别、词语与概念之间关系扩展、概念上下沿的粒度划分、有限窗口的滑动性和可变性研究。
其他文献
汉字和书法是中国传统文化重要组成部分,构成丰富多彩的中国历史与文化。用户在浏览欣赏汉字书籍时,特别是在浏览欣赏有诸多繁体字的古代书籍的时候,会遇到很多生疏不认识的
场景中的目标识别是图像理解中一个主要的研究问题,具有重要的理论研究价值和应用前景。现实世界中由于目标的多变性,如尺度、旋转、光照、位置、遮挡等,复杂混乱视觉场景中目标
无线传感器网络节点的能量通常十分有限,因此如何最大限度地延长网络生命周期是无线传感器网络路由协议设计的首要目标。分簇结构是一种能量高效的网络结构,因此基于分簇的路由
随着移动通信和无线定位技术的发展,室内空间及其移动对象的数据管理成为目前数据管理领域的研究热点。由于定位系统的不同,传统的基于GPS位置的移动对象管理技术不能直接应用
个性化推荐具有主动性和及时性两大优势,是解决信息过载问题的重要途径。目前的个性化推荐技术中使用最多的是协同过滤技术,协同过滤大致分为两种算法:基于用户的协同过滤和基
随着室内外定位技术以及普适计算的发展,基于位置服务的应用需求引起了工业界和学术界的关注,而提供基于位置服务的前提是获取移动对象的位置。在室外,我们可以使用GPS获取移动
无线传感器网络(Wireless Sensor Networks,WSN)是由一些传感器节点以自组织的形式协同构成的无线网络。  智能交通系统(Intelligent Transportation System,ITS)是缓解交通
本体学习的许多方法也已经被国内外许多科研人员提出并应用,而对于本体学习任务中概念间非分类关系的获取,却被研究的较少,它也是本体学习中的难点。随着网络的发展,越来越多
随着我国国民经济的快速增长,煤炭的需求量呈现快速增长态势。国家和地方相继投资一批新建矿井以满足国民经济的发展对能源的需求。矿井建设包括很多子工程,是一个特别复杂的工
近年来,数据流分类问题引起了广大研究者越来越多的关注。然而,实际应用中的数据流的类分布往往是非平衡的,即某些类(小类)的实例数量明显少于其他类(大类),被称为倾斜数据流SDS(