中文词语语义的高斯分布表示与学习模型研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:jonnykang001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的表示是自然语言处理中的一项基本任务,最简单的方法是基于向量空间的独热表示,该方法简单易行,但存在数据稀疏,不能表达词语之间的相似性等缺点。为了解决这些问题,一些学者提出了“词嵌入”,其训练得到的词向量在许多自然语言处理任务中都取得了很好的效果,已成为表示词语的主要方法。但自然语言中的词语存在不确定性或多义性,用向量表示词语时,词语对应为多维空间中的一个点,会致使词语语义表示过于刚性,包含的语义信息会非常有限,无法体现词语关于表示及其关系的不确定性。因此,我们认为使用分布来表示词语是一个很好的选择。而高斯分布是一种具有优秀数学性质的分布,可以很好地表示词语,高斯分布的均值可以表示词语的语义,方差可以表示词语的不确定性信息。也就是说,词语之间的关系可以通过分布之间的关系来捕获。同时,基于中文的词表示模型也受到重视,针对汉字的特点,可以挖掘其蕴含的语义信息,来有效提升词表示模型的质量。此外,可以充分利用研究人员构建好的中文知识库,来进一步增强词语语义表达。本文使用高斯分布表示词语,针对高斯分布的特点,我们使用期望似然核作为能量函数来衡量词语之间的关系,并使用最大边缘函数作为损失函数来对模型进行训练,整体以Word2vec的Skip-gram模型进行训练。与此同时,首先针对汉字的特点,提出PRL-CC模型,先得到汉字组件特征文件,每个汉字都对应有其拆分的组件,然后在训练时将每个汉字对应的组件信息作为模型输入一并加入进行词表示模型训练;再融入外部知识库,提出PRL-SE模型,同样地,先得到HowNet知识库文件,每个词语都对应有其语义数,每个语义对应有组成该语义的义原,我们只取词语最常用的两个语义,然后分两个维度,将不同语义的义原信息加入,这样词语的不同语义能够分开训练。对于提出的两个模型,我们都给出了相应的模型结构图,并在词语相似度计算、文本分类和命名实体识别任务、词语定性分析上与不同的模型进行了效果对比,可以看出我们的模型有着较好的效果,且能够更好地表达词语的不确定性及多义性。
其他文献
火力发电是我国电力生产的主要方式,磨煤机作为制粉系统的关键设备,研磨出的煤粉质量会影响最终的燃烧率和使用率。加载装置作为磨煤机施加外力的主要装置,其运行状态的好坏将直接影响磨煤机研磨煤粉质量和碾磨部件材料损耗等内在特性。开展磨煤机加载装置的设计与研究具有重要现实意义。针对目前磨煤机液压加载装置和弹簧加载装置存在的制造成本高、漏油、材料磨损快等问题,在分析磨煤机及其加载装置工作原理的基础上,设计电磁
学位
学位
学位
为了缓解能源枯竭和环境污染问题,寻找可替代的新型清洁能源成为问题的关键。氢能是一种理想的新能源,利用太阳能驱动半导体光电催化产氢被认为是解决环境问题和能源危机最有希望的解决方案之一。因此,本论文主要以增强Fe2O3光电催化性能为主线,采用非金属掺杂、构筑异质结和负载助催化剂等策略对Fe2O3进行修饰,制备出了B-Fe2O3、Fe2O3-Co3O4、Ni Fe-LDH@Fe2O3-g-C3N4三种光
随着如今世界能源体制变革,开发和应用可再生能源已经成为世界各国能源发展的新方向,聚光型太阳能热利用技术正处于可再生能源研究领域前沿技术的浪潮。其中抛物面槽式太阳能集热系统由于模块化制作、技术成熟,在中高温领域得到了较快的发展,在实际生产生活中应用广泛。本文基于北京延庆抛物面槽式太阳能集热器光热性能测试实验平台,开展入射角修正系数实验测试,进而建立并完善槽式集热器预测模型,并通过进行不同工况下的实验
学位
原子力显微镜(Atomic Force Microscope,AFM)是一种研究材料表面性质的强大工具,其核心部件是一根用于扫描的微悬臂梁,即力的传感器。微悬臂梁一端固定,一端自由,自由端的端部存在可以探测样品表面的针尖。原子力显微镜在轻敲模式下(Tapping Mode)工作时,微悬臂梁会被激发到接近其谐振频率振动,针尖会随着微悬臂梁的振动甩荡开来,通过针尖与样品表面之间的作用力变化反馈出样品表
羽毛球作为一项隔网对抗类项群运动,亦是我国的传统体育强项,近年来,随着羽毛球项目规则的不断变化,在比赛中节奏逐渐加快,双方在相持回合球速越来越快,使得羽毛球对速度素质的要求也愈来愈高,而要想提高羽毛球的专项速度素质能力,就要求在能影响到速度的各项急停、启动、转体、蹬跨、回动和挥摆等动作上提高效率,加快速度。弹力带抗阻训练作为一项新兴的训练理论和方法,从最初的应用于医疗康复方向到如今的身体体能训练,
学位