汉语名词短语隐喻识别研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:woxiaosong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻是自然语言处理的棘手问题之一,近几年来开始受到从事中文信息处理研究的学者们的关注。隐喻大量地存在于我们的语言生活中,Lakoff&Johnson(1980)指出隐喻不仅仅是语言的修辞手段,而且是人的一种思维方式。如果隐喻的识别和理解不能很好解决,将成为未来自然语言处理技术发展的瓶颈。 本项研究面向语言信息处理,全面地考察汉语名词性隐喻的分布,总结和发现名词性隐喻的表达规律,利用机器学习的方法探索短语层级的隐喻识别,为全面的隐喻自动识别和理解奠定基础。在研究过程中取得如下创新成果: (1)提出名词隐喻的层级描写,在语义分类基础上建立以源域(sourcedomain)为核心的名词隐喻知识架构。 本文通过考察n+n名词隐喻在构词-->词汇-->短语-->句子-->篇章等不同层级的分布规律,建立面向文本内容理解的名词“隐喻”的工程定义,确定了面向中文信息处理的隐喻研究重点:即以短语隐喻表达为核心,探索源域到目标域(targetdomain)的隐喻映射规律。同时从构成、句法、语义等角度对名词隐喻进行考察,建立了汉语名词隐喻的知识架构体系。 (2)设计和建造了汉语隐喻知识库,在《中文概念词典》(CCD)上建立源域和目标域的映射关系,增加了CCD关于隐喻映射的描述。 汉语隐喻知识库是计算机处理隐喻的重要资源。本文从大规模真实语料中发现隐喻现象,提炼加工了汉语名词隐喻词表,在此基础上又利用《现代汉语语法信息词典》(GKB)和CCD的基础平台,搭建出新的名词隐喻知识库。名词隐喻知识库一方面利用了CCD中概念存储编号的唯一性,通过人工概念消歧,建立了一个源域到多个目标域的映射关系;另一方面名词隐喻知识库的属性字段也继承了GKB的部分成果。 (3)提出基于机器学习方法+规则辅助的汉语名词隐喻识别策略,利用机器学习的分类技术解决隐喻的识别问题。 本文把机器学习方法纳入隐喻计算处理的框架,隐喻识别过程被描述成隐喻义与字面义的分类问题,分别对单个词语和“n+n”模式进行识别实验。单个词语识别充分利用隐喻标注资源和人工归纳的语言知识,通过实例方法、最大熵方法和朴素贝叶斯方法的隐喻建模,在综合上下文词语、词性等多项特征的基础上,进行了三种模型不同窗口的比较实验,最后确定最大熵模型为理想模型,然后再引入多项辅助特征来提高识别效果。“n+n”模式识别建立在单个词语实验的基础之上,实验过程重在建立隐喻相似度推理,同时也验证了名词隐喻知识库的有效性。 (4)结合CCD和隐喻知识库建立汉语名词隐喻扩展推理,进一步提高识别效果。为了能够更好地建立隐喻的相似度推理,本文运用人机互助方法对CCD词典进行了合理剪裁,建立了一个词语对应一个语义类的词典格式,为后续的相似度实验提供了保证。本项研究所积累的资源也是重要的成果,可以对今后的汉语隐喻计算研究提供支持。例如,实验所用的各种统计软件都可以作为隐喻自动识别的工具;汉语名词隐喻词表作为基础资源,为隐喻的计算理解提供了有价值的数据;汉语隐喻知识库中源域和目标域的概念映射为人们提供了一组组清晰的汉语隐喻映射图画;新闻领域和文学领域的有一定规模的名词隐喻标注语料库,为计算机的隐喻识别和理解提供了重要参考。
其他文献
在迅速发展的移动计算领域,广泛应用的嵌入式系统的结构和功能越来越复杂,能耗也越来越高。降低系统能耗对延长电池的使用时间起到重要作用。如何在满足功能和性能需求的前提下
学位
鸡蛋是人类重要的营养食品,其新鲜程度直接影响其价值。在销售、流通及加工方面,如能做到按新鲜度分级,则对生产、经营者的科学管理有重要意义。传统上鸡蛋的新鲜度检测多采用人
集成电路设计复杂度的不断增加,对于设计验证技术提出了新的挑战。传统的模拟方法已经很难满足工业设计的需要。因此高效、易用的形式化方法成为了近几年研究的热点。以模型检
论文将专家系统技术应用于信息安全风险评估领域,其目的是将已有的风险评估指标体系、评估方法等与专家系统技术结合,开发应用于军工信息安全风险评估的辅助工具,实现对信息
椭圆曲线密码体制是使用有限域上的椭圆曲线有限群代替基于离散对数问题密码体制中的有限群而所得到的一类密码体制。传统的基于有限域的离散对数问题因为可以使用指标计算方
网格技术是新兴的Internet信息技术,是下一代互联网技术研究与应用的重要领域之一。资源是网格中的主要对象,网格是协调管理地理上分布的各种资源,并为用户提供透明一致的访问接
随着Internet在政治、经济、文化等领域的快速发展,网络已经成为人们日常生活的一个重要组成部分。与此同时,网络安全问题也随之凸现,并成为企业网络应用所面临的主要问题,网
树木的年轮是一圈又一圈深浅相间的环,每一圈代表一年。采用人工的方法数出年轮来费时费力,随着计算机应用技术的发展,特别是图像处理技术的发展,使得快速得到树木的年轮特征
近年来,由于可扩展性好,性能价格比高和易于部署等特点,基于P2P技术的流媒体传输成为一种可靠的流媒体解决方案。同时,由于P2P系统中节点的动态性和异构性,它也成为流媒体研
在很多真实应用中,收集大量数据相当容易,但为大量数据提供类别标记则比较困难。因此,如何利用大量的、廉价的未标记数据来辅助提高学习器泛化能力成为机器学习和数据挖掘中