基于语义信息辅助的短文本主题模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xll526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是一种挖掘文本语义信息的有效方法,属于文本挖掘的研究范畴,被广泛地应用于信息检索、自然语言处理等多个领域。经过近二十年的发展,该领域已产生了一系列较为成熟且适用于长文本的模型与算法。然而,随着在线社交网络的兴起,越来越多的数据以短文本的形式出现,为主题模型的研究带来了新的困难和挑战。首先,每个短文本文档仅由很少的单词构成,上下文信息匮乏,产生了稀疏性问题,导致长文本主题模型失效。因此短文本主题模型的设计与优化成为了一个新兴的研究分支。已有工作一般从数据层与模型层的角度进行改进,通用性较差、语义信息利用不充分,存在可改进和提升的空间。其次,传统主题模型一般使用一组一元单词描述主题信息,表述有歧义、阅读体验较差。因此主题信息的表示也是一个重要的研究问题。已有工作一般使用一组词组描述主题,但是大部分工作存在模型复杂度高以及通用性差的不足。因此,有必要展开提升主题可读性的研究。针对短文本的稀疏性问题,本文结合由词嵌入模型、语言模型等提供的语义信息,从两个方面展开模型改进的研究:基于单词建模主题以及基于单词对建模主题。针对主题的可读性问题,本文结合丰富的语义信息,从主题词组生成的思路展开研究。具体而言,本文主要基于上述思路开展了三项工作,提出了四个模型,主要研究内容如下:1.构建引入语义信息的伪文档在短文本场景下,如果直接基于文档建模主题,由于缺少上下文信息,得到的主题质量很低。一种策略是基于词汇表中的每个单词建模主题,使用单词的主题概率分布间接推算出原始文档的主题信息。如何学习每个单词的主题,是该策略的重要研究内容。本文设计了基于伪文档的主题模型SEMIPS,为每个单词构建描述其语义信息的伪文档,并将伪文档的主题概率分布等价为目标单词的主题概率分布。在伪文档的构建过程中,SEMIPS模型引入了由词嵌入模型提供的语义信息,将单词间的语义相似关系作为伪文档构建的依据。通过模型性能评估、模型简化测试及word2vec词向量效用等实验,展示了SEMIPS模型能够有效地解决短文本的稀疏性问题。2.引入全局单词对建模主题基于单词建模主题需要构建伪文档,这一过程容易引入噪声,而基于语义相近单词对建模主题则能避免这一问题。其主要思想是:语料中的单词对相当丰富,可以使用单词对的主题信息间接推算出原始文档的主题信息,从而解决短文本的稀疏性问题。这一思路假设两个语义相近的单词在建模主题时有相同的概率生成同一个主题,因此已有工作把局部共现的单词两两抽取出来生成单词对用于训练。但是,仅使用局部共现的关系并不充分,例如互为近义的两个单词往往很少共现,因此本文提出了GloSS模型,通过引入单词间的语义相似关系,从全局语料中挖掘出语义相近单词对,从而提高主题质量。通过模型性能评估、对比不同词嵌入模型效用等实验,展示了引入全局单词对的必要性、使用语义信息的有效性。3.引入单词间量化关系建模主题基于单词对建模主题是一种有效的策略,但已有工作在建模主题时仅依赖单词对的共现频次而忽略了单词间的相关性,因此本文提出了RIBS模型,通过使用单词间的量化关系直接影响模型建模过程。RIBS模型以先验知识的方式引入这种量化关系,使语义更相关的两个单词有更高的概率生成同一个主题,先验知识包括:单词间的生成关系和单词的重要度。其中单词间的生成关系通过使用循环神经网络训练语言模型得到,而单词的重要度则通过逆文档序体现。在此基础上,本文还利用单词间的生成关系,提出了RIBS-Bigrams模型,该模型在主题信息生成后,结合主题词组生成算法,以词组的形式来描述主题。这一工作能够在解决短文本稀疏性问题的同时,提高主题的可读性。通过主题评估、文本表示等实验,展示了模型的有效性;通过探索不同语言模型质量对主题模型的影响,提供了结合NLP算法优化主题模型的新思路。
其他文献
按语:本规范由体系岗位专家吕德国教授负责起草,束怀瑞院士和体系有关专家提供了修改建议,体系执行专家组进行了认真讨论修订。东部综合试验站站长集体讨论通过。
<正>真语文大师余映潮曾被张定远先生誉为"中青年语文教师课堂教学艺术研究的领军人物"。他创建了"板块式、主问题、诗意手法"阅读教学艺术体系,提出了"思路明晰单纯,提问精
急性坏死性筋膜炎(necrotizing fasciitis,NF)是以皮下脂肪及筋膜坏死、继发覆盖皮肤坏死为特征的一种急性进行性软组织感染性疾病。Fournier综合征(Fournier′s gangrene,FG)是N
“微博实名制”正式启动不久,中国互联网历史上最大规模的密码泄露事件随即爆发,究竞是巧合还是蓄意不得而知,但无疑为“微博实名制”敲响了警钟,关于实名制的争论也再次被推上了
<正>金融机构遵循监管以达到合乎监管需要的成本随之提高,由此催生了监管科技(RegTech)的发展金融科技主要通过创新金融业务模式和拓宽传统金融业务的边界,实现金融资源跨时
自MOOC兴起以来,在线学习在全世界的迅速兴起,在线学习能力成为人才的核心竞争力,建立在线学习培育机制,促进在线学习能力的培育成为必然。在线学习培育机制的建设要遵循知识
时下古装剧的人物造型呈现出趋向华丽、年轻化、偏离史实的特征,这是市场规律下影视业对市场的迎合。事实上经典影视剧的人物造型十分注重以史实为据,并不胡编乱造;失败的影视剧
对于历史地段空间的更新改造,一直是一个比较热门的话题,大家都在讨论如何能够在还原历史地段风貌的同时又可以让该地段的历史场所精神重新焕发;既可以延续其历史文脉,还可以
<正>监管沙盒是中国转变金融科技监管理念的有益借鉴,可以弥补现有金融监管机制的不足,是平衡创新与风险的有效监管手段金融与科技融合发展是经济社会信息化水平提高的一个重
在混乱环境中,企业需要理解新事件真实的战略意义,以快速、准确地转变或修正战略决策。现有文献过度简化了意义构建的过程,并忽略了战略决策者社会属性在意义构建过程中的作