基于主题模型的汉语动词隐喻识别方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:clone111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻的机器处理已成为自然语言处理研究中的热门课题,隐喻处理的好坏将直接影响到机器对自然语言理解的程度,并对机器翻译、搜索引擎和情感计算等领域有着重要的推动作用。隐喻识别是隐喻处理的基础性工作,在目前的汉语隐喻识别研究中,很多隐喻研究者都集中在短语级别的名词性隐喻的识别方法上进行研究,而实际文本中动词性隐喻出现的频率更高,更应该受到更多汉语隐喻研究者们的重视。本文的研究目的就是对句子级别的动词性隐喻进行识别方法的研究,通过将主题模型引入到汉语隐喻识别过程中,提出了两种基于主题模型的识别方法,并将其使用在动词隐喻句子的识别中,从而更好地实现隐喻的识别。  首先,通过对汉语动词隐喻的使用和主题模型的分析研究,将主题模型引入到了汉语隐喻识别的过程中,提出了基于主题模型的汉语动词隐喻识别方法。本方法针对汉语动词隐喻,首次将LDA(Latent Dirichlet Allocation)应用于汉语隐喻的识别,该方法通过对句子主题建模,得到句子的主题分布,并结合人工主题标注作为特征,最终通过机器学习的方法对动词隐喻进行了识别,取得了较好的识别效果,实验结果表明了主题模型应用在隐喻识别方法上的有效性。  在主题模型方法对隐喻识别的有效性基础上,为了解决人工标注主题的缺陷,论文对上述方法进行了更深层次的探究,通过引入语义知识,提出了一种主题模型融合语义知识的无标注识别方法,其中语义知识来自于中文知识库《同义词词林》和英文知识库WordNet,通过选取句子的主题分布、词语的抽象度和语义类别信息作为特征,对句子级别的动词隐喻进行识别。此方法减少了人工干预对实验结果的影响,使整个实验自动化完成,并得到了较好的识别效果。  通过本文在基于主题模型的汉语动词隐喻识别方法上的探索和研究,提出了两种隐喻识别的方法,并且在汉语动词性隐喻的识别效果上取得了比较不错的结果,也为主题模型在隐喻处理研究中的应用提供了一定的参考价值。
其他文献
随着Internet上信息量的飞速膨胀,使得人们在网上查找自己需要的信息变得越来越困难。虽然一些搜索引擎(如Google、百度)为人们从海量的网页中迅速查找有效信息提供了工具,但
如今,相当多的人热衷于使用社交媒体(Social media)。以Twitter为例,每天都有海量的Tweets被一遍遍地转发(RT,ReTweet),在全球迅速转播。然而,面对海量、动态、复杂且多样的
随着电力工业的迅速发展,电力系统的规模不断扩大,对继电保护测试技术有了更新更高的要求。虽然传统的继电保护测试软件能达到够实用水平,可以完成基本功能的测试,但软件很难
近年来随着互联网的发展,出现了大量的P2P系统,P2P技术也逐渐成为人们研究的热点。P2P网络研究的初衷是多媒体文件的共享,大量多媒体文件的共享带来了多媒体文件检索的需求,
本文以Rails框架和语义Web技术为主要研究内容,力图弥补传统开发框架难以对用户需求快速变更做出及时响应,以及无法满足向语义Web迁移的Web3.0愿景的不足,提出结合Rails框架
在工业生产中,各种计算机系统在不同控制领域得到了广泛应用。但是长期以来,它们之间普遍不能进行有效的通信,其中最关键的问题就是接口的不标准。OPC(OLE for Process Contr
随着信息服务业的不断发展,基于用户个性化的主动信息服务作为一个新的研究热点和一种新型的信息服务模式,得到了越来越多的关注。本论文对旅游多媒体信息主动服务系统进行了
随着多媒体技术在网络和人们生活中的广泛应用,近年来,多媒体数据库管理系统(MMDBMS)方面的研究倍受关注。多媒体类型繁多,结构复杂,语义丰富。当前已有的MMDBMS 缺乏对各种媒体
文本分类是大规模文本处理的基本功能,也是提高其他文本处理功能和质量的有效手段。通过文本分类,人们可以按类别进行文本存储、检索和进一步处理。因此,迅速有效地对文本进
近年来,自动取款机(ATM)在各商业银行大量投入使用,在方便用户存取款的同时,也带来了越来越多的ATM机纠纷案件和金融犯罪,而目前的银行系统由于缺乏智能化监控手段导致此类犯