一种基于谱聚类的共指消解方法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:kingerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代消解是自然语言处理中的一个基础性问题。指代消解在命名实体识别与跟踪、关系抽取、问题回答等任务中有着重要的作用。共指关系是指代关系中的等价关系,本文针对中文共指消解的具体任务,提出采用谱聚类的方法解决共指消解问题。本文所提出的基于谱聚类的共指消解方法通过两个步骤实现共指消解。首先采用最大熵分类器对待消解项对进行是否存在共指关系的分类,将分类结果的条件概率值作为待消解项对之间存在共指关系的概率。然后基于此概率值构造Laplacian矩阵,采用谱聚类算法对相应的矩阵求特征向量,从而将待消解项对适当的合并或拆分。最终形成实体类,实现共指消解。本文所采用的数据集是ACE2007中文语料,所采用的评测指标为ACE的评测工具计算得出的ACE Value和B Cubed评测指标。本文还将谱聚类的算法与传递闭包、最近连接(Closest Link)、最优连接(Best Link)、BellTree等已有的共指消解中的聚类算法进行比较,分析和对比各种聚类算法的特点。通过实验数据我们发现,谱聚类的方法在entity subtype上通过适当的参数调整能从全局的角度进行实体类划分,ACE Value和B Cubed F值分别达到了75.5%和82.0%,比上述常用的聚类算法中最好的性能分别高出0.6%和3.5%。但谱聚类的方法对于阈值和待消解项的类型较为敏感,因此,在不考虑类型的情况下其他聚类方法体现出了更好的效果。针对谱聚类算法自身存在的不足文章也进行了一定的讨论。最后,本文还对各种聚类算法阈值的自动生成进行了一些讨论,希望对今后进一步的工作有所帮助。
其他文献
随着Internet技术的发展,人们对通信隐私和信息安全技术越来越重视,二维工程图的安全性也逐渐引起人们的关注。当前的二维工程图加密算法还比较少,主要是对其格式的加密,对二
现有的逆半调方法大多都需要有半调类型的先验知识,因此对半调图像进行类型识别有助于提高逆半调方法的自适应性和逆半调方案的优化、建立。本文深入研究了不同半调技术的工
目前,移动终端如手机、PDA的数量已超过固定电话,无线通讯发展迅猛,如何做到让移动终端通过无线通讯手段随时随地获取INTERNET信息---移动互联网成为热点和技术创新点。WAP(W
microRNA(miRNA)是一类近些年发现的在转录后水平上对基因表达水平起到负调控作用的小的、进化保守的RNA分子。越来越多的研究显示miRNAs在癌症和其他恶性疾病的产生和发展的
随着计算机技术的不断发展,电信网、互联网、有线电视网之间的融合是大势所趋。作为传统电信网的替代技术,VoIP具有成本低廉、容易部署、升级方便、功能丰富等特点,是极具发
为适应我国航天事业的可持续发展,满足新一代运载火箭和新型航天器发射任务需求,2007年8月,国务院和中央军委正式批准在海南文昌建设新一代运载火箭发射场。日前,新发射场可行性
针对货物拆卸困难、有特殊要求不得开封、行李物品涉及个人隐私等特殊监管情势,采用X光检查设备对运输工具、货物或行李物品进行非侵入式扫描检查,从而实现准确、高效地检控,
随着模糊集合理论广泛应用于社会生产和生活中的各个领域,模糊关系数据库理论的研究与应用应运而生,但是由于模糊数据的特殊性,传统关系数据库管理系统己经不再适合处理这些
重新审视传统的网络架构,许多传统网络时分层的,多数以树形结构布置了众多的以太网交换机。当以客户端-服务器为主体时,这种设计是合情合理的,但是对于如今的企业数据中心、校园
印刷体数学表达式识别系统主要包括数学表达式定位、数学表达式符号识别、数学表达式结构分析和数学表达式重构四个组成部分。数学表达式定位是数学表达式识别的首要步骤,也