局部光滑保持流形正则化自编码文本表示方法研究

来源 :北京理工大学 | 被引量 : 1次 | 上传用户:liongliong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,形成了海量的非结构化文本数据,文本挖掘的重要性日益凸显。文本表示是将文本中大量非结构化或半结构化的字符信息转换为简洁统一的结构化形式,广泛应用于文本分类、聚类、检索等领域,是文本挖掘中关键且重要的环节。文本数据的高维、稀疏和词义相关等特性影响了文本表示理论与技术的研究发展,已有方法大多假定文本词语的分布是全局欧式词袋空间,即任意词语间相互独立,忽略了词义间的相关性,因而未能充分利用文本的语义特征。实际上,如果能够提取更为丰富的文本语义信息,特别是利用近邻文本的局部欧式特性,保持近邻文本低维流形空间的特征光滑性,可以更有效地提升文本表示的效果。论文基于流形学习理论,以保持文本表示向量的局部光滑性为突破点研究低维稠密向量的文本表示方法。首先,结合词语分布式语义特征提出基于词嵌入的文本相似性度量方法,并以此为基础构建文本近邻图用于局部近邻文本判定,再利用局部近邻文本话题加权嵌入自编码网络构建参数化文本话题编码函数(文本话题建模),融合局部近邻文本话题概率生成结构建立文本仿射映射函数(文本嵌入表示)。论文的主要成果和创新点包括:1.提出了一种结合文本集词聚合、词组合分布式语义特征的文本相似性度量方法,该方法充分利用了词语间语义联系,提升了低共现词汇文本的相似性度量准确性。针对文本相似性度量割裂词义联系,使得低共现词汇文本相似性度量效果不理想的问题,提出了一种结合词聚合、词组合分布式语义特征的文本相似性度量方法。该方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后采用词嵌入的最大加权匹配距离计算文本相似性。基于维基百科、20 newsgroups和RCV1语料库分别对词嵌入和文本相似性进行实验。在词嵌入实验中,词类比的正确率达到73.95%,词义辨析的斯皮尔曼等级相关性达到74.12,结果表明,联合词聚合与词组合分布式语义特征构建词嵌入编码网络能表达更丰富的分布式语义信息。在文本相似性实验中,利用词嵌入最大加权匹配距离的文本聚类NMI达到63.1%,利用词嵌入最大加权匹配距离的文本分类?达到71.59%,结果表明,利用词嵌入编码网络所构建的词嵌入向量计算词嵌入最大加权匹配距离,可有效利用词语间语义联系,进一步提升文本相似性度量的准确性。2.提出了一种局部近邻文本话题加权嵌入自编码网络的文本话题建模方法,该方法可建立参数化的文本话题编码网络进行样本外话题建模,并通过利用局部近邻文本话题几何结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对流形文本话题建模方法无法提供一个参数化话题编码函数进行样本外话题建模和现有样本外扩展的流形学习方法没有利用局部近邻文本话题几何结构的光滑性的问题,提出了一种局部加权嵌入正则化自编码文本话题建模方法(LWE-TM)。该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数,并将局部近邻文本话题加权嵌入自编码网络,进而保持局部近邻文本话题几何结构光滑性,建立参数化的文本话题编码网络。基于20 newsgroups和RCV1两种文本集的样本外话题编码进行了文本建模、聚类和分类实验。在文本建模实验中,困惑度分别达到679和1800;在文本聚类试验中,LWE-TM的NMI效果提升至接近74%,在文本分类实验中,LWE-TM的达到86.59%,结果表明,LWE-TM利用建立的参数化文本话题编码网络可有效地进行样本外话题建模,拓展用于文本分类、聚类问题;通过保持局部近邻文本话题几何结构的光滑性,增强了文本话题编码的光滑性,提升样本外话题建模的准确性。3.提出了一种融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法,该方法通过保持局部近邻文本话题概率生成结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对现有文本嵌入表示方法无法有效保持局部近邻文本话题概率生成结构光滑性的问题,提出了一种融合局部近邻文本话题概率生成结构的文本嵌入表示方法(Disc-LDE)。该方法首先基于文本相似性度量构建文本近邻图;然后通过执行近邻图直推式多代理随机游走,构建了具有高重叠比例的子空间;最后利用子空间近邻文本的LDA模型生成伪文本,将其作为流形正则项与真实文本一起进行自编码网络的优化重构,构建光滑的仿射映射函数,执行样本外文本嵌入。基于20 newsgroups、RCV1和Amazon reviews三个文本集对样本外文本嵌入表示进行了聚类和分类实验。Disc-LDE的聚类NMI效果提升到近71%,分类?效果提升达到83.91%,结果表明,具有较高重叠比例的子空间可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射,进一步提高了文本分类、聚类等应用的效果。
其他文献
为研究表皮生长因子(EGF)及其与谷氨酰胺(Gln)和pGRF基因质粒的不同组合形式对早期断奶仔猪肠道发育影响的差异,选取同日龄断奶仔猪30头,等分到EGF、EGF+Gln、EGF+pGRF基因质
【目的】探讨中医情志疗法干预子宫切除术患者的不良情绪的临床有效性。【方法】将100例患者随机分为试验组48例和对照组52例,对照组给予传统的护理方法,试验组在对照组的基
运用全国名老中医汪履秋教授的经验方二地苦青汤治疗Ⅱ型糖尿病50例,疗效满意。临床治愈5例,显效13例,有效26例,无效6例,总有效率88%。经观察,治疗后患者的口干欲饮、消谷易饥、小
高校租赁是满足在校大学生生活学习需求和社会实践、创业实践需求的一个重要途径。现如今,随着互联网发展的推动和绿色消费模式的影响,高校租赁业务已经有了快速发展的丰厚沃
哈尔滨是20世纪较早注入外来文化的城市。随着中东铁路的修筑,哈尔滨以其特有的地域优势和便捷的水陆交通,一度成为近代东北亚经济文化的窗口,并被誉为"东方小巴黎"和"东方莫
北京时间2012年7fl18日,曜越科技官方正式宣布,旗下电子竞技专属品牌TtesPORTS将与中国最大的电子竞技电视联赛--游戏风云”G联赛”达成合作,赞助G联赛2012年全部的比赛。
文中采用虚拟变量回归分析的方法,通过对2011年全中国的31个省份,自治区和直辖市的城镇房地产相关数据进行了分析,其中虚拟变量为代表东部,中部和西部地区的两个变量,其它影
孔雀河第一分水枢纽在冬季担负着重要的输水任务,由于各方面的原因给冬季安全运行带来极大的影响。文中从现实情况和长远设想,从技术手段和管理制度多方探讨了第一分水枢纽冬
本刊曾在过往的杂志中分别就“高校电竞”这个话题介绍过四川、杭州以及西安的电竞情况。2011年5月末,当GTL东北赛区在哈尔滨举行时,本刊记者特地就访了几个哈尔滨的高等学府,其