基于神经网络模型的中文词汇语义关系分析

来源 :武汉大学 | 被引量 : 0次 | 上传用户:yumenglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着近几年机器学习与深度学习的发展,计算机视觉、统计自然语言处理以及语音识别领域得到了较大发展。在统计自然语言处理方面,语义理解一直是研究的重点任务,词语之间的语义关系分类则是语义理解的重要环节。语义关系分类是自然语言处理中一项具有挑战性的任务,在实际的应用中,我们需要识别词语之间不同的语义关系。例如在情感分析中,我们需要识别具有对比意义的词语,在信息检索的查询扩展中,我们则需要区分目标词的同义词和下位词。在语义关系分类的研究方法中,有语义词典匹配方法,这类方法通过搜索语义词典匹配词语之间的语义关系。高质量的中文语义词典有同义词词林,HowNet语义知识库等。使用语义词典进行语义关系分类无需建立模型,同时该方法简单,高效,易于理解,但是一部高质量的语义词典并不是很容易得到,除了要消耗大量的人力,物力进行构建,还需要定期进行更新维护,而且该方法无法处理未登录词。基于机器学习的方法在一定程度上克服了语义词典的缺陷。目前成熟的机器学习算法有很多,比如LR(Logistic Regression),马尔科夫模型等等。这类方法大致步骤都是通过将词语向量化,然后使用机器学习算法建立模型。虽然该方法一定程度上克服了语义词典的缺陷,但是在精度上却没有语义词典的精度高。近几年,深度学习技术得到了较快发展,通过建立神经网络模型或者深度神经网络模型,使得一些多年来的难题得到了一定的解决。为此,本文采用神经网络模型进行语义关系的识别。使用神经网络建模,需要明确网络的输入以及输出,还需要防止网络的过拟合问题。本文设计了网络的输入,使得整个输入层能够包含所有的语义信息,同时引进一些防止网络过拟合,提升网络性能的算法,例如dropout,正则化,指数衰减学习率等等。
其他文献
2012年1月,中国有色集团在赞比亚的出资企业谦比希湿法冶炼有限公司共生产阴极铜627吨,铜精矿42吨,创历史同期最好产量,实现了新年生产开门红。为公司全面完成2012年的生产任务打
背景和目的肺癌是常见的恶性肿瘤,发现时大部分已是晚期,目前化疗是治疗晚期非小细胞肺癌的重要手段之一,但是化疗药物对肿瘤细胞与正常细胞都具有杀伤性,化疗的剂量限制性毒
糖尿病病人低血糖反应是糖尿病病人常发生的一种不良反应,若不及时处理,可发生糖尿病低血糖休克,危及病人的生命安全。所以掌握糖尿病病人低血糖反应的诱因、主要症状及紧急处理
通过2榀钢骨混凝土柱-钢梁框架的低周反复荷载试验,对钢骨混凝土组合框架的滞回性能、延性、耗能性能、刚度衰减等抗震性能进行研究。并依据JGJ 138—2001《型钢混凝土组合结
不久以前,我带四年级同学去敦煌作了一次短期的临摹,对敦煌艺术又有了新的认识。一、造型的大胆处理在敦煌看到了大量北魏、北周、隋、唐及宋、元的人物画原作,塑造了众多的
以我国观赏园艺专业为研究对象,从生产状况和消费状况、发展速度、发展阶段等方面,分析了我国观赏园艺发展现状,指出观赏园艺产业结构、配套科研成果、投资渠道及投资方向等
传媒发展是离不开社会的。以电视真人秀节目为视角,从社会、文化和传媒产业的角度进行一次梳理,发现一些规律和方向:从“拿来主义”到“部分借鉴”再到“版权大战”,国内电视
【本刊讯】国际铝业协会(IAI)近日公布数据显示,全球11月原铝产量环比减少7万吨,至196.9万吨。2012年11月,全球原铝产量创历史纪录达203.5万吨。
<正>社会主义核心价值观包含着国家现代化建设的目标和对美好社会的表述,阐述了公民基本道德规范,是中华民族传统美德和当下时代发展要求的浓缩与结晶。学校教育要将社会主义
在我国,元代的杂剧艺术被视为是中国戏曲艺术的较好开端,我国戏剧史学家王国维就在《宋元戏曲史》中指出:"论真正之戏曲,不能不从元杂剧始也。"[1](P61)杂剧艺术的形成,一方