基于依存树相似度计算的汉语复句关系词自动识别

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:aabbccdd654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系词是复句标识分句之间结构关系和语义关系的重要语法标志,所以复句中关系词的研究是复句研究的关键点,也是进一步研究复句层次结构划分和语义结构的基础。因此,准确自动识别关系词对于计算机进一步理解篇章有着非常重要的意义。在现有的复句关系词自动识别的方法中,大部分是基于规则库中规则与约束条件为判断依据、以零散的词为单位而进行。针对现有的基于规则自动识别关系词的不足,本文使用依存树这一包含复句词间依存关系和复句句法结构的数据结构,结合复句中关系词和关系词搭配作为复句中冰冻结构的特性,提出一种基于依存树库相似度的汉语复句关系词自动识别方法。本文首先简介依存树库的构建,以及如何对依存树库中语料分层抽样、解析,进而得到作为复句关系词自动识别相似度参照集的关系词依存树库。然后,通过试验验证利用相似度计算的方法来识别关系词的合理性和可行性。在此基础之上,复句关系词分析器利用关系词搭配词库提取准关系词、构建准关系词依存树,将准关系词依存树与参照集分别进行内容相似度和句法结构相似度计算,通过计算结果进行关系词的自动识别。最后,本文对试验结果分析并给出结论和提出优化分析器准确性的建议。本文试验所用复句均来自汉语复句语料库(CCCS)。将按照特征类划分复句实验组与不按照特征类划分复句实验组进行对比验证,两类试验与参照集的平均内容相似度分别为:91.4%和90.8%、平均结构相似度分别为:80.7%和79.1%、复句关系词识别正确率分别为:91.7%和91.9%,识别正确率较基于规则的方法提高约6%。结果表明,复句关系词和关系词搭配确实存在冰冻结构,方法是行之有效的。
其他文献
在信息资源爆炸性增长的环境下,信息抽取成为一种从海量资源中获取有价值信息的重要手段。事件时序关系识别是事件信息抽取的后续任务,对问答系统、信息抽取和文本自动摘要等
视觉是人类获取信息的重要手段,并随着计算机技术的不断发展,一门新的综合性学科应运而生—计算机视觉。双目立体视觉作为计算机视觉的一个重要的组成部分,近年来已成为人们
决策支持系统是一门新兴的管理信息技术,能为决策者提供各种决策支持信息,可提高决策的质量和效率。数据仓库和数据挖掘是数据库研究、开发和应用的最活跃的分支之一,也是新
软件开发是一项复杂的工作,需要好的人员、好的技术以及好的过程才能得到满意的产品。统一软件过程RUP是一种用例驱动的,以架构为中心的,采用迭代增量方式开发的软件工程过程
本文在分析特征选择相关性质的基础上,研究并设计了多种环境下特定的特征选择算法,而这些也是目前特征选择的研究热点。 主要结论: 1.利用指数熵作为特征排序准则,并结合改
无线传感器网络利用微型传感器与网络技术相结合,打破了人们对物理世界信息获取方式的传统观念,成为21世纪的一种新兴技术。无线传感器网络不仅在各项科研工作中产生了很大的
随着科学技术的发展和现代化战争的需要,信息融合作为一门新兴交叉学科,在近年来得到了广泛关注和快速发展。而多传感器多目标航迹关联方法的研究,一直是多传感器多目标跟踪
随着J2EE技术大规模的应用,EJB技术受到广泛的质疑。EJB技术给J2EE应用开发带来了严重的复杂性和巨大的开销。降低J2EE的复杂性开始成为开发者的主要关注点。随着轻量级方案
无线传感器网络(WSN)的应用开发研究是智能控制技术的重要研究领域,在WSN开发研究中,无线传感器及控制器节点(WSCN节点)是关键部件,担任着终端数据采集、执行控制和数据通信
随着计算机技术和网络技术的高速发展,计算技术逐渐从集中式环境向分布式环境发展。计算机测试软件也从原来的单机模式向现在的分布式考试系统发展,由传统的测试模式向自适应