基于矩阵分解的词向量快速提取方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:rainbow_qu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网中涌现了大量文本信息。为了挖掘海量文本信息的价值,研究者们提出了一系列自然语言处理任务。词语作为文本的基本单元,建立有效的词表示是各种自然语言处理任务的基础。词向量技术能够有效地建模词与词之间的语义关系并提高下游自然语言处理任务的性能表现。虽然现有的词向量方法取得了巨大成功,但是已有的词向量提取方法在大词表词向量提取问题以及新词词向量提取问题上都存在计算效率低的问题。因此,本文将着重改进词向量提取方法的计算效率问题。针对大词表词向量的提取效率问题,本文提出了一种基于矩阵采样的词向量快速提取方法(WEQ)。目前词向量提取方法主要分为两类:基于神经网络的方法和基于矩阵分解的方法。现有的方法大多集中在提高词向量的性能表现上。然而在大词表的场景下,不论是基于神经网络还是基于矩阵分解的词向量提取方法的计算成本都很高。本文提出的WEQ方在基于矩阵分解的框架下通过L2范数矩阵采样从冗余巨大的原始信息矩阵中采样出包含主要语义信息的核心信息矩阵(Q-contexts矩阵),从而降低需要进行矩阵分解的矩阵规模来避免高昂的计算开销。本文通过理论及大量的实验证明了WEQ方法能够提取得到性能表现较佳的词向量的同时极大地提高大词表的词向量提取效率。针对新词的词向量提取问题,本文提出了基于语义空间复用的新词词向量提取方法(MF-OOV)。随着新的语料库不断出现,模型将面临一些新词。这些新词不能够在已有的词向量中检索得到,同时新词的上下文句子数量非常有限。因此,如何在有限的新词相关上下文的情况下学习新词的词向量是一个重要的研究课题。已有的新词词向量计算方法主要有以下两类:1.无参数学习方法;2.有参数学习方法。目前无参数学习的方法无法有效地学习到复杂的语义空间转换关系。虽然近期提出的有参数学习方法能够获取性能表现较好的新词词向量,但是该方法需要昂贵的计算成本。本文提出的MF-OOV方法通过复用已有词向量计算过程中的语义空间映射关系能够计算得到与已有的词向量在同一语义空间的新词词向量,同时该方法的算法复杂度极低。实验结果证明了MF-OOV方法的有效性与高效性。
其他文献
随着手机的不断迭代更新,废旧手机已经成为世界上增长最快的固体废弃物之一,而手机电路板中含有丰富的稀贵金属,被称为“城市矿山”。本论文通过碘法浸出体系分步浸出回收废旧手机元器件中的金和铜,第一阶段采用H2SO4-H2O2浸出手机元器件中的铜;第二阶段通过Na2S2O8-KI体系浸出手机元器件中的贵金属金,最后通过溶剂萃取TBP-液体石蜡体系萃取浸出液中的金,使用抗坏血酸为还原剂还原萃金有机相中的金,
学位
中国互联网络信息中心发布的第48次《中国互联网络发展状况统计报告》中指出:截至2021年6月,我国网民规模达到10.11亿,互联网普及率达71.6%。互联网技术与人类生活紧密联系在一起,企业与用户沟通方式也发生质变,企业虚拟品牌社区应运而生。企业虚拟品牌社区是指由企业依托互联网技术建立的,供品牌爱好者们进行信息交流、情感沟通,同时为企业创造商业和社会价值的网络空间。企业虚拟品牌社区不仅为拥有共同爱
学位
随着采矿业的发展,酸性矿山废水产生的污染问题日益严重。镉(Cd)是酸性矿山废水中常见的重金属元素,对生态环境和人体健康有极大的威胁。因此如何有效去除水体中的镉已成为环境领域长期以来的研究重点。生物炭固定化微生物技术因去除效果出色、无二次污染更能耐受污染环境等特点被广泛用于重金属污染治理领域。本研究自广西某重金属硫化物尾矿中分离出一耐镉和硫酸根的菌群,研究了此菌群的生长特性及对Cd2+的去除效果。对
学位
在当今的数字经济时代,信息化程度日新月异,企业在变化迅速的经济环境中运作,其特点是竞争加剧和不可预测的技术变革,为了能够快速、及时响应市场变化需求,企业必须通过提升创新能力,构建核心竞争力来获得竞争优势。企业的创新活动离不开员工,研发人员是提升企业研发创新能力最重要的驱动力与核心源泉,正因如此,如何鼓励及激发研发人员提升创新绩效成为亟需解决的现实问题。与此同时新生代员工对工作的个性化需求也越来越强
学位
基于过一硫酸盐(PMS)的高级氧化技术(AOPs)由于其高反应性和稳定性,对水中难生化降解有机污染物的去除具有明显优势。锰氧化物因其低成本、多价态、资源丰富、环境友好等优点,在PMS活化中备受关注。然而,锰氧化物的催化活性整体上并不理想,因而如何提高锰氧化物的催化活性日益受到关注。通过晶相、形貌、缺陷调控等方法获得高活性的锰基催化材料是当前污染控制领域的研究热点,关于锰氧化物表面优势暴露晶面对PM
学位
煤电作为我国基础性能源产业,为我国经济发展和国民生活作出了巨大贡献,但煤电产业同时也因高排放、高污染、高耗能的特性对环境造成极大损害。中国经济进入新常态后,着重强调在发展经济的同时对环境的保护,要坚决杜绝以牺牲生态环境为代价换取经济发展。为此,国家先后出台“碳交易”、“去产能”、“双碳战略”等政策控制煤炭产能及碳排放量。2020年初疫情在全球爆发,多数国家因疫情反复导致经济发展缓慢,在党和政府的正
学位
垃圾焚烧飞灰中因含有大量重金属、可溶性氯盐以及二噁英等有害物质,被《国家危险废物名录》列为危险废物。烧结处置因其减容减重、挥发重金属的优势受到广泛关注。然而,目前的焚烧飞灰烧结研究以添加氯化剂促进城市生活垃圾焚烧飞灰重金属氯化挥发为主,不同类型垃圾焚烧飞灰基础特性及烧结过程重金属氯化挥发机制研究尚未进行。本文以城市生活垃圾焚烧飞灰(Municipal Solid Waste Incineratio
学位
强场高次谐波产生是获得深紫外-X射线波段相干辐射的重要技术手段。基于谐波获得的桌面式短波光源,在某种程度上实现了以往依赖大科学装置(如同步辐射、自由电子激光等)才能提供的实验条件。极紫外波段的光子能够使大部分原子分子发生单电离、双电离,甚至多电离,为研究原子分子的超快动力学过程提供了有利的技术方案。本论文通过基于气体高次谐波产生的极紫外光源结合光电子速度成像装置,研究了He原子的光电离。通过使用飞
学位
零价铁价格低、环境友好,但零价铁表面钝化降低其反应活性,成为制约其实际应用的瓶颈。零价铁硫化改性可克服零价铁表面易钝化、比表面积小等缺陷从而提高其反应活性。目前,现有的零价铁硫化工艺(水合法)流程复杂,且会产生合成废水导致二次污染。本文利用硫化亚铁和零价铁球磨合成硫化零价铁,详细探讨了球磨条件对零价铁硫化的影响,优化球磨参数,通过简单的合成方法获得了高性能的硫化零价铁,并将其用于过硫酸盐活化以高效
学位
随着自由电子激光技术的发展,用超短超强的极端紫外光脉冲实验探索多电子动力学及电子关联是原子分子物理的研究热点。通过对多电子关联效应的研究,对理解超导电性、分子结构和化学反应等许多现象至关重要。氦原子的双光子双电离(TPDI)是最简单的多电子关联系统。利用我们开发的多电子全维量子数值模拟程序,我们研究了超强超快激光与氦原子相互作用过程的双电离现象,探讨了双电子体系的电离过程及其电子关联效应。我们讨论
学位