基于多义词向量的句子相似度计算

来源 :长安大学 | 被引量 : 0次 | 上传用户:labidax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展,网络文本数据也呈指数级增长。如何快速有效地从海量文本中获取人们感兴趣的内容,挖掘出其潜在的应用价值成为人们亟需解决的问题。对海量文本信息的分析处理常常会涉及到句子相似度计算,而词语的多义和歧义现象是影响相似度计算的一个重要因素。近年来借助词向量技术强大的语义信息表达能力,深度学习在自然语言处理(NLP)任务中取得了巨大的成功。深度学习NLP中处理多义词现象的方法有静态的多原型词向量和动态词向量两种技术,其中动态词向量技术因其表现较好受到众多研究者的青睐。但是,受制于特定领域下语义表达的精度,或实时性要求较高的应用场景下如推荐、检索等任务中性能要求的限制,静态多原型词向量是这些应用的一个好的选择。为此,本文提出一种基于多原型词向量的句子相似度计算框架,该框架包含词语的多义归纳、多原型词向量的迭代求精、以及基于ESIM匹配的相似度计算。这种框架可以较好地适应随着语言发展的变化、使用场景的不同而导致的词语多义变化发展的情况。论文的主要工作内容包含以下几个方面:(1)针对词语的多义表达随着使用领域和场景的不同以及语言的发展而变化,论文设计了一种基于词向量构建复杂网络进行词义归纳的方法。该方法通过上下文单词的词向量来表征多义词本身,利用词向量所蕴含的语义信息构建更好的特征网络,从而提高社区检测算法划分词义的有效性和鲁棒性。实验证明该方法比经典的Hyper Lex算法更为有效。(2)通过词义归纳推导得到的多原型词向量仍有语义表达不精确的问题,为此论文提出一种迭代求精的多原型词向量训练模型。模型通过歧义消除和词义标注模块、基于多义标记语料的词向量训练模块进行联合学习,不断精炼多义词向量。该方法还可以根据多义词的使用场景去适应特定场景下的语义表达和语义个数,改进多义词向量表达精度的问题。单词语义相似度计算实验验证了算法的有效性。(3)基于深度学习的句子相似度计算模型可以捕捉句子的结构、上下文等信息去提升评判效果。论文集成词语的多义推导、多原型词向量求精和ESIM匹配计算技术设计了一个句子相似度计算框架。该框架可以随着词语使用场景的变化、语言的发展更新多原型词向量的表达,从而得到更好的句子相似度计算准确度。实验证明,这种计算模型的准确度较传统ESIM模型改进了22.1%,较融合类信息的句子相似度计算方法提高了6.7%,其性能得到了很好的提升。
其他文献
近些年,我国汽车保有量迅速增长。汽车给人类带来便利的同时,也导致了交通事故等诸多问题。而智能车辆作为解决这些问题的有效办法,逐渐受到人们的追捧。路径规划和跟踪控制作为自动驾驶的关键技术,已成为当今研究的热点。本文依托于国家自然科学基金项目“智能汽车复杂动态环境的深度层次感知与理解方法研究”(项目编号:U1864204),针对智能车辆路径规划和跟踪控制方法展开研究,具体内容如下:(1)研究了智能车辆
Y交叉口是城市道路的通行瓶颈,多见于上游匝道、下游匝道、车道减少路段。交替通行作为解决Y交叉口交通拥堵的有效方式,已经部分地应用于中国的一些城市中。但在现实中,由于缺乏有效的监督机制与处罚力度不够等原因,这一规定常常为驾驶员忽视。从而严重制约城市道路系统通行效率。在拥堵环境下,驾驶员所面临的困境是采取何种合并行为(强制合并或合作合并),本研究在补充已有研究空白的基础上,基于驾驶员信用提出了可以优化
随着交通运输行业的不断发展,公路车辆逐渐向重载、高速的方向发展,桥梁的跨径也越来越大,桥梁结构则越来越轻薄,车桥动力相互作用问题愈加突出。移动车辆荷载作用下桥梁结构的安全问题一直是学者和工程师们所关注的问题,尤其对于近三十年才发展起来的部分斜拉桥而言,人们对其研究更多地集中在施工阶段静力分析以及成桥阶段地震分析,对部分斜拉桥车桥耦合振动的研究则相对较少,且绝大部分都是针对铁路部分斜拉桥车桥耦合振动
随着交通供需矛盾日益凸显,城市中交通拥堵等问题亟待解决,优先发展公共交通是解决交通拥堵问题的良策。公交车是公共交通最常用的方式之一,已在全国城市普及,其具有投入成本低、通达性高等特点,且无需建设专用线路。在公交运营规划中,时刻表编制和行车计划制定是非常重要的组成部分,合理的时刻表和行车计划能够提高公交服务水平和减少运营成本。然而,目前仍有一部分城市在时刻表编制和行车计划制定上存在不合理情况,违背优
十九届五中全会提出,“推动高质量发展”将会是“十四五”期间的主题。与此同时,在新的经济发展背景下,深入推进新型城镇化也被提上议程。建筑业作为我国国民经济建设中重要的一员,也先后被提出要走工业化、智能化的高质量发展道路;然而我国建筑业高质量发展还处在探索阶段,资源消耗大、生产效率低等问题仍未得到有效解决。另一方面,建筑业作为我国城市建设的主力军,其发展质量对于新型城镇化水平有重要的影响作用。因此,本
近水平岩层高陡边坡的崩塌具有突发性和不可预见性两种特点,对公路、车辆和当地居民等生命财产安全产生重大影响。对于该类互层边坡,崩塌发生的机理为外营力作用加剧泥岩风化、砂岩节理不断发育、集中降雨期导致泥岩层崩解、砂岩悬空内部节理发育直至贯通、孤立岩体崩塌。针对近水平岩层高陡边坡崩塌灾害,从崩塌机理、边坡稳定性分析、致灾体危险性、承灾体易损性、崩塌风险等级5个方面进行研究,并提出相应的理论与方法。(1)
2020年6月23日BDS-3最后一颗GEO卫星成功发射并组网,我国北斗三号全球卫星导航空间部分全面部署完成。这意味着今后全球卫星导航系统(GNSS)提供多模多频服务成为了常态化,而我国的北斗导航系统也即将成为GNSS服务共享体系中的一支重要的力量。BDS-3空间部分包含24颗MEO卫星,3颗IGSO卫星以及3颗GEO卫星,其中IGSO和GEO卫星主要加强了亚太地区的服务能力。星载原子钟作导航系统
高延性水泥基工程复合材料(Engineered Cementitious Composite,以下简称ECC)是一种区别于传统混凝土且具有高延展性的纤维增强水泥基复合材料,并且与钢材具有较好的变形协调能力。使用ECC代替混凝土与型钢组合形成的型钢-ECC组合结构能够改善型钢混凝土结构的脆性破坏,增强结构延性与耐久性,进而改善结构的使用寿命。当前对型钢与ECC之间粘结滑移机理与性能研究较少,因此为了
自然通风是最简单、最节能的通风方式。开窗通风可以满足室内人员对新鲜空气的需求,在保持室内良好热舒适的前提下,进而提高室内空气质量,保证室内污染物浓度不超标,最终减少建筑能耗。因此居住者的开窗行为是一类重要的建筑人行为,开关窗模型的准确性对建筑模拟有重要影响。本文以西安地区城市内七户家庭为例,研究住宅建筑的开窗行为以及室内外空气质量。对七户住宅的窗户状态、室内外环境以及空气质量参数进行连续监测,其中
路灯是公路交通建设的基础设施,定期清洗路灯透光罩,有利于保障人们的出行安全。当前,路灯清洗工作主要依靠人工完成,由高空作业车将工人送至灯具下方进行清洗,存在人员安全问题。本文从开发自动化路灯清洗装置出发,开展基于目标灯杆识别及轨迹跟踪的路灯定位系统研究,主要研究如下:(1)设计路灯定位总体方案。分析路灯清洗装置工作环境,确定路灯安装参数。提出以灯杆和护栏为参照,通过超声波传感器获取清洗装置与护栏的