面向共指消解的动态泛化机制研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huanghuang051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指消解是自然语言处理中的核心任务,它对于篇章分析、自动文摘、信息抽取、信息检索、信息过滤和机器翻译等都具有重要的意义。本文采用基于实例的动态泛化机制,在中英文上完成共指消解。基于实例的动态泛化机制的核心思想是:从训练实例中寻找那些与测试实例最相似的实例,并根据最相似的训练实例的正、反类别分布预测测试实例的类别标签。以此核心思想为基础,本文提出了泛化点的概念,并设计了动态泛化机制的两个基本算法。本文重点研究了两类动态泛化机制:基于平面特征的动态泛化机制和基于复杂特征的动态泛化机制。对基于平面特征的动态泛化机制的研究,本文着重解决了动态泛化机制基本算法中尚未解决的最佳泛化点选取标准与正值置信度计算问题。本文提出了5种最佳泛化点选取标准,并将正例置信度定义为对正例所占比例的分段线性函数。实验结果表明,以本文提出的最佳泛化点选取标准与正例置信度定义方式作为基础,基于平面特征的动态泛化机制在中英文语料达到的效果与三种传统机器学习方法的效果相当。复杂特征包含取值分别为字符序列型、结构型的特征。本文分两个子任务对基于复杂特征的动态泛化机制进行了研究:(1)基于中心语特征的动态泛化机制研究。本文引入了先行语和照应语的中心语作为新的特征,其属于字符序列型。针对动态泛化机制基本算法的错误分析结果,本文提出竞争模式以捕获命名命名实体识别错误与语言互斥的搭配。实验结果表明,采用竞争模式后,基于中心语特征的动态泛化机制在英文语料上取得明显的增强效果,但在中文语料上有待进一步改进。(2)基于结构特征的动态泛化机制研究。本文引入了Simple-Expansion树形结构作为新的特征,其属于结构型。本文提出了两种树形结构修剪策略解决结构型泛化点匹配问题,并再次通过竞争模式将树形结构特征融合进动态泛化机制。实验结果表明,采用竞争模式后,基于结构特征的动态泛化机制在英文语料上的效果并不理想,对结构特征开发利用的研究仍需进一步改进。
其他文献
BitTorrent协议的出现,特别是DHT(Distributed Hash Table,简称DHT)网络的快速发展,给文件共享和下载方式带来了一场变革。DHT网络的用户规模和文件数量近几年来呈爆炸性的增
学位
随着互联网的普及和电子商务的发展,推荐系统在电子商务系统中起着越来越重要的作用。它可以将电子商务网站的浏览者变为购买者,提高电子商务网站的交叉销售能力,保留已有用
随着遥感技术以及高分辨卫星技术的发展,当今社会对高分辨率遥感卫星数据的存储以及访问的需求在越来越大,另外随着分布式技术在大数据的环境下发展也越来越成熟,也有越来越
本论文旨在研究统计机器翻译中的调序问题。特别地,我们选择了对基于层次短语的统计机器翻译模型的规则选取问题进行研究,这是因为基于层次短语的翻译模型的调序能力主要依赖
近几年,为了缩短软件的开发周期和提高软件的开发质量,柔性的软件开发模式被提出。柔性软件开发模式能灵活和快速地响应用户需求的变更。其主要特点有以下四点:模型是可模拟的
随着中国互联网用户的爆炸式增长,中文信息处理技术在互联网领域受到越来越多的重视。中文组块分析,因其在具有词法分析效率的同时又具有接近于完全句法的分析深度,在互联网领域
随着计算机技术和网络技术的飞猛发展,人类社会的信息化进程大为加快,对信息的依赖程度越来越高。保险公司也依靠IT系统处理案件。自从20世纪70年代《协同学导论》的出现,使
针对互联网个人影像产品制作过程中,传统手工操作复杂、耗时、并造成网络与服务器高负荷运转的问题,探讨了一种基于等级变异与图像内容特征信息的免疫克隆算法。并以比较复杂
三峡库区河段地质情况复杂,桥梁众多,常常发生船桥相撞事故,对航运安全形成威胁。为此论文提出对三峡库区航运安全进行虚拟现实仿真系统及相关技术的研究,以三峡库区重点航段