基于知识图谱语义扩展的短文本主题建模研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yxl0173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络是人们获取信息的重要手段,手机、电脑等移动设备已经成为人们生活中不可分割的一部分,网络文本开始成为人们获取信息、传播信息的主要途径之一,这使得文本数据呈爆炸式增长。如何挖掘出文本数据的规律和隐藏的主题结构,成为机器学习领域的热门问题。主题模型在文本领域有着极为广泛的应用,通过建模可以有效的挖掘出数据中潜在的主题结构。但是传统的主题模型在面对极短的文本(如社交媒体帖子)时,由于文本数据少、上下文信息缺失,会面临严重的稀疏性问题,在短文本上的建模效果通常不佳。越来越多的研究者开始思考如何来弥补数据稀疏的问题。然而,大部分的模型虽然通过各种办法来对文本内容进行扩充,但往往认为文中每个单词之间都是独立的关系,忽略了单词之间的语义关联。在实际的场景中,人们阅读时除了文本中的内容外,头脑中已有的知识对于人类理解文本含义也十分重要,单词的词性、相关的单词等语义知识都可以帮助人们进行理解。因此,通过单词间语义关系,可以发现哪些单词有更高的概率属于同一个主题。为它们增加词共现信息从而扩充短文本表示,这更符合人类推理的模式,也能获得更高质量的主题表示。知识图谱是现阶段AI领域研究的热门,在长文本主题建模领域的很多应用已经获得了不错的效果,但是还没有在短文本领域的应用。其中Word Net知识库包含着丰富的单词间语义关系,人们可以从中获取到高质量的同义关系以及从属关系。针对主题模型中词共现信息匮乏的问题,本文利用Word Net提供的单词间语义关联作为额外信息来辅助模型改进采样过程。当为一个单词分配主题时和它语义相近的单词也会共享这个主题,将语义信息与主题模型相结合增加文档级词共现。本文具体工作如下:1.提出了基于知识图谱语义扩展的短文本主题建模方法WRDMM(Word Net Relation Dirichlet Multinomial Mixture)。首先WRDMM从单词邻域结构关联度和单词自身相似度两个角度挖掘语料库中单词的语义特征,分别使用邻域相似度(Neighbor Similar)和Lch相似度(Leacock Chodorow Similar)两种方法计算单词之间的语义关联度,找到更有可能属于同一主题的单词集合,并作为额外的语义特征与狄利克雷混合多项式模型相结合。在模型训练过程中,根据获得的语义权重矩阵和单词与主题间联系的紧密程度,调整相似单词出现在某个主题下的概率,为当前单词和对应的语义相近词同时更新共现频次,将语义合并到主题推理过程中。2.本文在四个NLP领域知名的大型短文本语料集上对提出的模型进行测试,将根据两种语义相似度分别得到的WRDMMNS模型、WRDMMLCH模型与另三个有代表性的基线模型进行对比。经实验验证,本文提出的模型在分类和聚类效果上都有着超过同类模型的优秀表现,能够从短文本中获得高质量的主题信息,同时也证明了知识图谱与短文本主题模型结合的可行性。其中,使用邻域结构扩展的模型效果更好,使用Lch相似度扩展的模型更适合于主题更集中的数据集。
其他文献
随着我国的公路建设事业的发展,早期铺筑的公路已经出现了多种病害,相继进入了大中修养护阶段。对于沥青路面,在荷载和环境的综合作用下,路面出现了车辙、裂缝、松散等病害,
黄曲霉菌是一种可以侵染农作物丝状致病真菌,并且黄曲霉菌还可以产生的一种致癌性很强的次生代谢产物-黄曲霉毒素,对人类健康造成重要威胁。研究黄曲霉菌体内关键蛋白的功能
随着物联网和嵌入式技术的发展,交通道路通行状况成为了社会关注的热点问题之一。汽车在交叉路口场景下,网联设备、平台的特性以及合适的算法对于交通网络的整体改善起着重要
蛋白质分子适度的展开和聚集是形成凝胶的关键。肌球蛋白是肌肉蛋白的主要功能成分,经热处理可以形成凝胶,在鱼糜制品加工中起着关键作用。在不同盐浓度下,肌球蛋白的溶解度
粒子物理的发展在当下是非常迅速的,主要研究微观世界(例如夸克,电子,中微子等)中物质的结构、性质和相互作用。2012年7月,位于欧洲核子研究中心(CERN)的大型强子对撞机(LHC)
管路系统作为各类设备必不可少的组成部分,担负着动力输送任务,有着构型复杂、长跨度、层叠交错和多支撑的特点。在受到外界载荷、内部流体激励时易发生管路系统的大幅振动、
随着光纤通信技术的不断完善,各类新型光纤器件的研制引起了研究人员的关注。基于光纤设备的光纤传感网络正在蓬勃发展,光纤激光器和光纤传感器在光纤传感网络中发挥着关键作
目标跟踪在过去几十年中备受关注,并且广泛应用于诸如监视,机器人技术和人机交互等众多视觉应用中。尽管相关研究已经取得了许多的进展,但对于减少光照变化,遮挡等众多因素所带来的影响,及保证目标跟踪的实时性,仍然是当前研究的核心问题。近年来,卷积神经网络在各种视觉任务中展示出了其卓越的能力,尤其在目标跟踪中使用效果显著。受益于卷积网络层次化特征抽象表达能力,一些跟踪器将深度特征集成到常规跟踪方法中;在充分
哌嗪类有机胺湿法脱硫作为一种新型的脱硫技术,因其具有脱硫率高、解吸能耗低、脱硫液能循环使用、不易产生二次污染等优点而被广泛使用。本文研究了哌嗪(PZ)、1-(2-羟乙基)哌嗪(H
模具钢是用来制造冷冲模、热锻模、压铸模等模具的钢种。目前模具钢的应用领域在不断扩大。扁钢锭作为板类件的主要原料坯,被称为“万能钢”,在模具制造领域应用广泛。扁钢锭