基于树核的代词消解研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lzg31142003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都涉及到指代消解问题。核函数的研究和使用是当前机器学习研究领域的热门课题。作为一种特殊的核函数,树核函数已被应用于自然语言处理的各个领域,并取得了一定的成功。本文深入分析了现有的指代消解技术并进行了归类总结。针对结构化信息在指代消解中的重要作用,本文使用SVM提供的卷积树核函数自动获取句法结构信息,并将句法树作为一个特征,和其它基本特征相结合,从而训练得到一个分类器对代词进行消解。在基于卷积树核的英文代词消解研究中,本文首先考察了句法树的裁剪和扩展,通过适当的裁剪策略选择一棵合适的子树。裁剪策略主要分为静态裁剪和动态裁剪,在ACE 2004 NWIRE语料上的实验表明,在仅使用裁剪策略的情况下,动态裁剪树要好于静态裁剪树,动态裁剪树的F值达到了79.3%。由于很多句法树的区分能力不足,所以本文考虑句法树的语义扩展,将一些语义节点挂到句法树上。实验表明,句法树的语义扩展能显著提高系统的性能。针对卷积树核和指代消解的特点,本文分别考虑了训练实例的过滤和系表it的过滤,从而达到优化分类器的性能。训练实例的过滤主要过滤一些明显有指代关系的训练实例,从而减少分类器的噪音;而系表it的过滤主要是过滤那些不需要消解的it。本文还进一步分析了卷积树核对句法分析器的依赖以及跨句的指代的情况。此外,针对中文的指代消解,本文单独实现了一个基于机器学习的指代消解平台,由于预处理过程并不完善,所以在基于卷积树核的中文代词消解研究中只考虑句法树的裁剪。在ACE 2004 NWIRE英文语料和ACE 2005中文语料上的实验结果表明,卷积树核能有效的提高代词消解的性能,F值分别达到了82.1%和50.3%。本文的指代消解系统对代词的消解性能较好,对机器学习算法兼容性较强,可以在一定程度上有效地解决中英文的代词消解问题。
其他文献
制造网格的出现,实现了地理上分散的各类制造资源的全面连通和共享,形成了一个庞大的资源库。用户想要像使用本地资源一样方便地使用资源库中的资源,必须有效的发现所需的资
当今对图像、视频、药物分子、文本、空间数据、基因等数据的高阶高维信息规律进行分析是目前机器学习、数据挖掘等领域迫切需要解决的问题之一。相对传统的向量化的数据分析
C语言试题库是学校C语言考试系统的基础。由于常年的使用以及原系统缺乏重复试题检查功能,在试题库的不断扩充下题库里难免存在大量重复试题,这样就导致了试卷质量和考试效果
半导体技术的飞速发展使微处理器的运算能力迅速提升,但访存速度的增长却相对缓慢,“存储墙”问题日益明显。存储系统有限的片外带宽已经成为阻碍程序整体性能提升的瓶颈。分
生物信息学中的一个重要研究内容就是对基因转录调控的研究。转录因子结合位点的正确识别既是揭示转录因子功能的关键之一,又是理解基因转录调控机理的重要环节。转录因子是一
中文Web文档的自动分类主要还是以文本分类的算法思想为基础来进行的。但由于中文Web文档的数量巨大,内容多样,噪音繁多,很多比较成熟的文本分类算法直接应用到网页分类之后,
图像边缘检测是图像处理过程中的重要步骤之一,是虚拟手术系统中进行三维建模的基础。但是数字人体图像通常是多目标图像,参数轮廓模型不能处理该问题,多目标图像分割问题在
多年来,随着通信技术和数字信号处理技术的飞速发展,DSP芯片技术应用日益广泛。信号分析是一项通过逆向推理手段对信号进行分析的技术。DSP芯片在信号分析中也有着广泛的应用
虚拟现实技术是计算机技术高度发展的综合技术,它朝着沉浸,交互,想象的特征方向发展。多台PC机的集群机器驱动的基于大屏幕投影的虚拟现实环境在国内出现,并在视景仿真,教学,
网格计算是分布式计算的一种,是解决科学计算、工程计算和商业计算等大规模计算的下一代极具潜力的计算平台。网格将在地理位置上分布的异构的各种高性能计算资源整合起来,将