基于依存关系树的复句句法特征自动选取

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:mummu1025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,科技的进步,人们获取信息的途径越来越多,而且更加方便。人们在交流的过程中,也产生了大量的数据。信息处理的自动化和智能化是社会发展的必然。在此背景下,自然语言处理领域得到了飞速发展。在中文信息处理领域,分词和词性标注已经取得突破性进展。然而,为了最终实现对篇章的理解,要上升到句子层面的理解,而中文复句的研究是句子到篇章研究的过渡。复句由分句构成,其所含的信息量比单句大,常用来表示人和人、事和人及人与物之间的逻辑意义关系,同时兼有语法、语义乃至语用等多方面的属性。复句的层次关系划分是对复句研究的根本,而复句中关系标记的标识及关系标记之间的搭配关系又是复句层次关系划分的基础。基于以上事实,复句的研究就必须上升到语法、语义,甚至是语用的层面。本文试图以关系标记为出发点实现对复句层次结构的初步理解。复句特征的研究是基础中的基础,本文提出的基于依存关系树的复句句法特征自动选取实现了复句中表征关系标记及其搭配关系的句法特征集的获取。鉴于复句本身的特点,我们在选择特征的时候,并未局限于词汇特征,而是融入了丰富的句法特征。条件随机场模型是无向图模型,在自然语言处理中得到广泛的应用。我们利用该模型对复句语料进行了训练,并将相应的特征选取算法加入到模型中,实现了复句句法特征的自动选取。实验主要分为关系标记和搭配关系句法特征选取两个方面。由于关系标记任务更简单,研究也较多,所以得到的实验结果更好,准确率及召回率都达到了98%左右。本文对关系标记搭配关系的研究只是初步的探索,准确率及召回率只有77%左右,需要进一步深入研究。实验得到的模型文件可以应用在相关的任务中。
其他文献
分形理论在通信、现代医学、流体力学、纺织科学、工业设计、文化艺术、计算机科学等学科也得到广泛的应用。形式化方法是一种基于数学方法的规约,技术和验证系统的工具。它不
粒计算融合了粗糙集、模糊集、人工智能等多学科研究成果,是研究复杂问题、海量数据挖掘和不确定信息处理等的一种有效工具。近年来,粒计算理论被广泛应用于人工智能、数据挖
随着网络通信技术与多媒体技术的飞速发展,数字多媒体数据的非法复制、处理和传播变得越来越容易。这样使得多媒体数据内容的盗版和侵权问题日益严重。如何保护数字多媒体内容
在数据挖掘应用领域(如Web页面分类),收集大量未标记的实例已相当容易,而标记这些实例却需要耗费大量的人力物力。因此在有标记实例较少时,如何利用大量的未标记实例来改善学习性
随着信息技术的发展,计算机技术已经融入了现代社会各个领域,得到极其广泛的应用。然而在这样的背景下,计算机系统的异常可能会造成灾难性后果。  测试和仿真通常被用来保障这
随着信息黄金时代的到来,人们越来越意识到数据的重要性,而从这些大量的数据中挖掘有用的信息也变得越来越困难。特别是微博的兴起,使得每天产生大量的微博文本数据,而这些微博文
随着计算机和通信相关技术迅猛发展后,网络技术越为完善,而许多使用网络技术的实际应用如金融信息、地质测量、天文观测、气象、传感网络和数据集成等,产生了大量的数据流。
随着云计算技术的飞速发展,Web服务作为其关键技术之一被广泛应用,互联网上可用Web服务数量快速增长,因此如何快速准确定位Web服务,实现服务发现和组合变得十分必要和困难。目前
随着Agent技术的不断发展和多Agent系统应用的不断普及,对Agent系统的测试研究也不断成为热点。目前,国内外大多数学者和研究人员提出了各自的测试方法对Agent软件和多Agent系
随着语义虚拟环境(Semantic Virtual Environment)研究的深入,为了更好地促进用户与虚拟现实的交互,使计算机更自动化地处理虚拟环境中的信息,将语义加入到虚拟环境中,成为虚拟现实