【摘 要】
:
随着神经网络算法和分布式并行计算技术的迅速发展,文本的表示问题又重新回归到人们的视野中。作为自然语言处理的基本问题,如何有效表征人类抽象复杂的语言一直是不可逃避的
论文部分内容阅读
随着神经网络算法和分布式并行计算技术的迅速发展,文本的表示问题又重新回归到人们的视野中。作为自然语言处理的基本问题,如何有效表征人类抽象复杂的语言一直是不可逃避的难题。近年来,随着互联网数据呈指数形式增长,令这一问题更加凸显。基于神经网络的词的表示学习旨在以词为最小单位来解决该问题,该类模型不仅充分利用大语料的信息,还通过各种优化手段降低训练时间复杂度,使人们能够方便地获得保留语义语法信息的表示向量,为自然语言处理的其他任务建立了良好的特征基础。词向量在信息检索,情感分析,机器翻译等任务取得了不错的成绩,但是仍然有提升空间。基于此背景,本文进行了一下工作:第一,本文研究了词的表示学习方法及优化策略,提出了多特性融合的词向量的优化方法,实现了先验的词性信息,位置权重因子,段落向量相融合,在词类比测试比原模型准确率提高了两个百分点。第二,本文还发现了词向量反义词区分能力上的不足,调研分析了区分因素,在同反义词集合上验证了模型的区分能力。第三,本文在Skip-gram模型的基础上提出和实现了在线学习多义词模型,对词学习多个语义对应的向量,并且再次融合多特性以进一步提升的多义词模型的效果,获得了与当前最优结果比肩的效果。
其他文献
贵州有着"民族之都"的美誉,随着旅游业及城市化的不断发展,现代文化在带给贵州发展机遇的同时也强烈冲击着少数民族舞蹈文化的生存基础,传统的生态文化面临着失传和消失的危险,
随着基础通信市场趋向于饱和,国家政策不断向用户倾斜以及互联网行业崛起等诸多方面原因,电信行业的竞争变得愈发激烈。成本增加和收入下降使得电信运营商面临双重压力,过去
<正>1我与城市设计初过招有这样一块土地,曾经是一片棚户区,现在经历过拆迁,一地残砖碎瓦。如果告诉你,你可以决定它未来的样子,你会怎么想?当时,接到这个任务的我,是刚入职
随着我国社会主义市场经济的不断发展与进步,人们生活水平和生活质量也在逐渐提高。要想不断满足人们日益提高的生活需求,就需要对电力系统进行完善和提高。通过在电力系统中
前列腺癌是一个多病因且复杂的常见病,是威胁男性健康的常见肿瘤。在我国,随着人口老龄化的加剧,前列腺癌的发病率逐年递增。前列腺癌已成为威胁中国男性健康的主要疾病之一
金融稳定下影响资本账户开放策略选择的关联因素分析是目前国内外文献的研究热点。本文构建一个包含资本账户开放、金融稳定、国内储蓄率、对外债务履约状况、公众对金融体系
浅谈社会主义市场经济条件下的会计监督机制孙绍梅社会主义市场经济是法制的经济,它要求各单位的一切经济活动必须在法律、法规、制度规定的范围内进行。目前,我国正处于由计划
浅谈质量成本的核算分析与控制张劲松,李丛艳,王莹质量成本是为保证产品符合一定质量要求所发生的一切损失和费用。本文拟就质量成本的核算、分析、决策和控制问题做一探讨。一
匈牙利是位于欧洲中部的一个美丽的国度,是一个非常传统的、富有创新精神的民族。陡峻的凯凯什峰、颜色多变的多瑙河、被称作"匈牙利海"的巴拉顿湖然而,更吸引全世界人眼球的