汉语动宾搭配库构建技术研究

来源 :沈阳航空航天大学 | 被引量 : 1次 | 上传用户:mumuduck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语搭配是具有一定语法和语义结构关系的词语组合,在句法分析、机器翻译等领域,发挥着重要作用。然而,仅对自然语言进行词法、句法分析已不能满足语义检索等深层自然语言处理的需要,还需进行语义分析。本文将搭配和语义知识结合起来,利用计算机技术从大规模真实语料中抽取搭配来构建具有语义关系标注的搭配库,为自然语言处理提供重要的知识资源。本文以汉语动宾搭配为研究对象,主要包括三方面的工作,动宾搭配识别、语义关系自动标注以及构建动宾搭配库。首先,将搭配识别转化为序列标注问题,提出一种识别动宾搭配的基于条件随机场的类层叠算法和一种新的序列标注形式“ONIY”。实验比较了两种词性标记集下的测试结果,基于清华大学树库词性标记的F值是90. 65%,基于北京大学标准的词性标记F值是82.00%。实验表明该算法能够有效提高搭配识别的准确率,对多嵌套形式搭配更加有效。其次,制定20种语义关系框架。序列标注集采用“OBIE|x”,选择词、词性、目标词、目标词和搭配词之间的距离、词对应知网中的义原及其组合等作为特征,采用正交实验策略从中选出最优特征模板。最终对20个框架进行开放性测试,取得良好的效果。最后,在知网、人民日报,南方周末中提取出常用动词表。以该动词表的搭配为基础构建成了一个具有11万搭配规模并且包含语义关系标注和语义信息的汉语动宾搭配库。
其他文献
随着信息技术的不断提高,矿山企业正步入信息化、自动化和智能化的发展历程。但是由于我国矿山企业信息化基础较薄弱,矿山企业资源调度信息化的程度整体上还比较低,基本上处于起
BitTorrent(简称BT)是当今互联网上最为流行的P2P文件共享系统之一,其匿名性、开放性以及高效性赢得了越来越多用户的青睐,BT客户端也得到了日益广泛的应用,仅在2004年,BT流
随着移动计算、无线通信技术的快速发展和无线通信设备的普遍应用,无线移动环境下的网络研究和应用引起了研究者的广泛关注,其中延迟容忍网络,由于其对网络延迟和中断的一定
不同的生物认证特征包括:人脸、指纹、掌纹、虹膜、击键、签名和声音等,最近的研究已经证实虹膜是其中最精确和可靠的生物认证特征。因此,作为基于虹膜特征的身份认证过程,虹膜识
多目标跟踪是计算机视觉研究领域一个重要的组成部分。在军事,医疗,安防,人机智能交互等方面有着广泛的应用。基于特征多目标跟踪技术包括对视频序列的目标检测分离、分析提
P2P即点对点网络,是互联网应用领域中的热门技术。P2P由于取消了服务器的概念,使得网络中的用户可以直接的进行资源传输,P2P资源共享技术作为P2P的重要应用领域之一也受到了互联
随着室外视频监控系统的广泛应用,面对海量的实时视频数据,人们不仅需要有效管理,还需要能够实时自动从中提取出运动目标的信息,实现室外监控视频系统的智能化。行人异常行为
在无线传感器网络(Wireless Sensor Network,WSN)中,定位技术使网络能够确定各个节点的坐标,从而确定事件发生的位置,使网络做出有效地行动,是WSN核心技术之一。其中,基于测
生物信息学是研究对生物数据进行获取、存储、分析等多个方面的一门综合性学科,是生命科学研究的重要组成部分。基因组测序是生物信息学中最基本的研究方向之一,然而大多数生物
随着全球一体化进程的不断加快,国际贸易的日益繁荣,世界主要港口的集装箱吞吐量迅猛增长。海关作为国家进出境监督管理机关,需要实现新形势下对进出境集装箱的有效监管,尤其是转