基于卷积神经网络的中文实体消歧研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lingliang416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的普及,微博、博客、贴吧、论坛、各大新闻网站和政府工作网站等极大的方便了人民的生活。这些平台上每时每刻都在产生着大量的数据,而这些数据蕴含着巨大的价值,但它们绝大部分都是以非结构化或半结构化的形式存在,导致这些数据中存在着大量的歧义现象,如何利用这些数据就对自然语言处理技术提出了更多的挑战。中文词义消歧和实体消歧,正是在这种环境下逐渐发展起来。目前主流的实体消歧算法底层模型多是基于词袋模型,而词袋模型固有的局限性,导致这些算法都不能够充分利用上下文的语义信息。本文针对词袋模型难以捕捉上下文语义信息的缺点,提出了一种基于卷积神经网络的中文实体消歧方法。本文的主要工作包括以下几个部分:(1)针对词袋模型难以对实体上下文信息进行语义描述的问题,设计了一种基于卷积神经网络的方法来获得实体上下文的语义信息,该方法将实体上下文中名词的词向量矩阵作为神经网络的输入,继而通过卷积运算,生成实体上下文的语义特征向量;(2)基于语义特征向量,在模型训练时,以最大化待消歧实体与真正目标实体的相似度和待消歧实体与任一随机选择的候选实体的相似度之差作为训练目标,调整模型的参数,在模型预测时,取相似度最大的知识库候选实体作为最终目标实体;(3)本文对第二届CIPS-SIGHAN中文处理国际会议(CLP-2012)第二个评测任务"中文人名消歧任务"提供的数据集进行了预处理,得到本文所用数据集并进行了实验。实验结果显示,本文提出的基于卷积神经网络的方法对中文实体消歧是可行的、有效的。
其他文献
目的:分析牙周炎患者应用正畸治疗对其生活质量、牙周炎性状态的影响。方法:选取牙周炎患者117例,按照随机数字表法分为对照组(58例)和观察组(59例)。对照组给予常规基础治疗
目的:调查中学生积极心理品质的状况,分析可能影响中学生积极心理品质的因素,以便培养中学生的积极心理品质和为中学生的心理健康教育提供必要的参考依据。方法:抽取贵州遵义市三
消费税从实施至今已有近20年的历史,是我国流转税类中的一个重要税种。消费税在调节消费结构、抑制超前消费、正确引导消费方向和增加财政收入等方面都发挥了积极作用。笔者
实用主义哲学最有影响力的代表人物之一与实用主义教育的创始人约翰·杜威及其教育思想在世界教育史上的地位与影响使得对杜威及其教育思想的研究成为教育研究中不朽的课题。
本文试图通过语篇分析、语义学的理论来探讨英文报刊新闻语篇的宏观结构与微观结构 ,以达到了解新闻语篇特点、提高新闻报道传播效果以及帮助读者更有效理解新闻内容的目的。
20世纪末,同出一辙的俄罗斯和中国传媒分道扬镳,各自开始了自 己的市场化的转型。本文分析对比了两国道路的异同,揭示出两国传媒转型的特色,并 得出两国传媒在某种程度上
目的:口腔是人体与外界相通的环境,是微生物进入人体消化道、呼吸道的门户,口腔中定植着复杂的微生物群落,是人体各种微生物群落最复杂的环境之一。通常在健康人的口腔中有700
水是生命之源。我国地大物博,幅员辽阔而人口众多,水利事业对保障社会稳定、促进社会经济发展和全面建设小康社会意义重大。水利经济在国民经济中占据重要地位,如何科学开发
智能制造日益成为未来制造业发展的重大趋势和核心内容,也是加快发展方式转变,促进工业向中高端迈进、建设制造强国的重要举措。青岛海尔从2008年开始,逐步探索出一条以互联
生活水平的提高,出行人口的增多,交通在面临压力的同时也带来了新的发展机遇。铁路交通作为我国交通的主要组成部分也迎来新的发展黄金期。铁路工程建设规模逐渐扩大,挂篮施