基于谓词相容性的无监督隐喻识别

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:thskaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻指用一类事物描述另一类事物。隐喻在语言文字中是普遍存在的。历史上,学者对隐喻的看法大多停留在修辞手法的层面上。随着语言学研究的深入,人们开始对隐喻有了全新的认识,并提出了一系列重要的理论。其中影响力比较大的理论有概念隐喻映射理论和语义选择限制理论。现代流行的隐喻理论认为隐喻反映了人类的一种思维方式。  由于自然语言中含有大量未处理的隐喻,所以自然语言处理技术的发展受到了制约。基于目前隐喻识别研究的重要性和困难性,我们认为提出一套成熟可行的隐喻识别方法是非常有必要的。目前主流的隐喻识别方法都是基于语义选择限制理论或概念隐喻理论。但是这些方法都不太成熟,在训练语料库,领域依赖性,扩展性方面都有限制,而且效果还不足以提供实际应用。因此隐喻识别还有很大的提升空间。  我们在本文中提出了一个基于谓词搭配的语义消歧算法和一个基于谓词相容性的隐喻识别算法。我们利用三种语义搭配:词语搭配,概念搭配,谓词搭配。这三种语义搭配的语义粒度依次降低,数量规模也依次降低。大量的词语搭配在最底层的谓词搭配上会有语义信息的重叠和累加。这部分叠加的信息正是我们语义消歧算法和隐喻识别算法的关键所在。词语搭配可以从大规模语料库中抽取。概念搭配和谓词搭配利用HowNet生成。在本文中语义消歧的对象是词语搭配,消歧的目标从词语搭配所可能产生的全部概念搭配中选择正确的概念搭配作为消歧结果。大量消歧后的词语搭配实际上构成了一个概念搭配的集合,从这个集合中我们可以得到一个谓词搭配相容性的矩阵。利用这个谓词相容性矩阵,我们能够顺利地将词语搭配区分成隐喻和字面义。在谓词相容性矩阵的帮助下,隐喻识别的过程从识别高层的词语搭配是否是隐喻转换到判断底层的谓词搭配的相容性上。我们对消歧算法和隐喻识别算法分别进行实验评测。实验结果表明两个算法的效果都是比较好的,并且也都达到了我们的预期。
其他文献
Logo,即商标标识,其蕴含着公司文化,对公司起着至关重要的宣传作用。如何让人们快速的对一个公司的商标进行辨识,如何能够快速的了解一个商标所用蕴含的意义?随着图像采集设备的发
随着技术的发展和对大量用电设备的需要,设备的管理变得越来越复杂,能远程地管理和控制设备已经是基本的需求。目前,应用中存在大量通过串口进行管理的设备,而串口不利于数据
代价敏感学习是近几年数据挖掘领域的一个热门研究方向。基于代价敏感学习的分类算法的目标是进行分类时使得样例的误分类代价、属性检测代价等多种代价因素的总和最少。决策
嵌入式系统已广泛地应用到人们的生产生活领域。在硬实时嵌入式系统中,任务间的抢占不仅导致操作系统上下文切换的时间开销,而且还会造成存储设备、网络设备、外界环境等资源
随着网络技术的迅速发展,基于Web的应用已经从局部化发展到全球化,从集中式发展到分布式,从以人为中心的Web发展到以应用程序为中心的Web,即Web服务。Web服务的出现带来了一
多视点视频(Multi-View Video/3D Video)是针对交互式多媒体应用提出的,其所涵盖的双目立体视频与多视点视频播放将在未来几年中实用化,它将解决3D交互视频的表现、交互、存储
由于P2P网络自身的特点使得在P2P网络环境中解决安全问题十分复杂。早期的P2P网络应用基本没有考虑安全因素,后来发展的一些P2P网络应用系统虽然有自己的安全机制,但是不具有
蓝牙通信技术迅速发展,蓝牙技术在手机应用领域迅速扩大,免提已经成为蓝牙手机的标准应用。在蓝牙手机普及过程中,人们迫切希望手机中的资源——电话簿能够以一种便利方式在
随着P2P计算模式的兴起、网络带宽的增加和Internet计算能力的迅速增强,如何充分利用这些资源,在动态的P2P网络环境中构建高可扩展、高可靠、高性能的分布式计算系统,是近年
专业学位教育是我国教育事业的组成部分之一。随着专业学位教育的发展和办学形式的多元化,专业学位研究生规模不断扩大,教务信息越来越多,教务管理工作的管理模式与管理水平之间