基于层次语义结构的流式文本数据挖掘

来源 :浙江大学 | 被引量 : 0次 | 上传用户：ilovemn

【摘要】

：

文本作为一种人类信息交流的基本方式,在非结构化数据中占有极其重要的地位。与其他形式的数据相比,文本数据通常价值较高,因而对文本数据自动分析和挖掘方法的研究一直是计

【作者】

：

涂鼎

【出处】

：

浙江大学

【发表日期】

：

2016年期

【关键词】

：

文本挖掘概念层次构建层次聚类稀有类别检测主题模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本作为一种人类信息交流的基本方式,在非结构化数据中占有极其重要的地位。与其他形式的数据相比,文本数据通常价值较高,因而对文本数据自动分析和挖掘方法的研究一直是计算机领域的一个热门话题。目前互联网上的文本数据增长十分迅速,且是每时每刻持续不断生成的,因此可将其看作是一条条连续的文本流。与传统文本数据相比,流式文本数据具有一些新的特点:1)文本流中的很多数据是低质量的,较难提取有效语义信息;2)文本流中的模式是动态变化的,对挖掘技术提出了准确捕捉这种变化的要求。以上这些特点对现有文本数据挖掘技术提出了新的挑战。目前流式文本数据挖掘技术尚未十分完善,急需提出针对以上挑战的相关算法。层次结构作为常见的数据组织方式,不仅能够更加精确的反映数据间的固有关系,并且是实现自适应方法的一种重要途径,而基于自适应方法可实现自动匹配流式数据中不断变化的模式。本文将层次结构应用到流式文本数据挖掘中,从概念层次构建、稀有类别检测和在线主题检测等三方面入手,提出了三种方法以期提高流式文本数据挖掘的性能。最后基于上述方法,本文提出了一种针对流式文本数据挖掘的半监督在线层次主题模型。本文具体贡献如下:1)针对现有概念层次构建方法在微博、用户评论等不规范短文本中语义关系提取精度较低的问题,提出了一种基于复合语义距离的多路概念层次构建方法。该方法中的复合语义距离结合了语义字典距离和上下文距离的优点,并且保证了方法的适用范围和所获取的语义关系的精度。同时,本文还提出一种改进的多路凝聚聚类算法用以构建概念层次。相对传统凝聚聚类而言,多路凝聚聚类能保持概念对间的相对远近关系。此外,本文还提出一种改进的概念层次相似度标准,该标准解决了其原始形式中可能出现的多次匹配问题。实验结果表明,该方法生成的概念层次与真实概念层次的相似度为所有对比方法中最高。2)针对从文本流的概念层次或主题层次中发现新概念或主题的问题,提出了一种基于层次密度聚类的稀有类别检测方法。在社交网络或新闻流中,发现新颖的文档或者新兴主题是很有价值的,异常检测在新颖数据检测中可发挥关键作用。为了改进现有检测方法,本文首先提出了一种基于相对距离约束和核函数的半监督密度聚类算法(Relative Comparison Kernel Mean Shift,RKMS)。与其原始形式相比,RKMS可扩展性更强,且更加适合层次聚类这种应用场景。然后本文基于RKMS提出了一种基于层次结构的稀有类别检测方法。与现有同类方法相比,该方法的优点是无需预先指定类别的数目,且可通过结合主动学习和半监督学习实现模型的逐步优化。实验结果表明,该稀有类别检测方法在使用线性映射和非线性映射的情况下均比其他方法表现更好。3)针对从持续输入的文本流中检测和跟踪主题的问题,提出了一种在线的层次主题模型(Hierarchical Online Non-negative Matrix Factorization,HONMF)。现有在线主题模型大多以扁平方式组织已发现的主题,但将每个主题视作互相独立的个体忽略了主题间的潜在关系,因而限制了这些主题模型的表达能力。针对该问题,本文首先对在线字典学习方法进行扩展并提出一种层次的在线稀疏矩阵分解方法,其可生成以层次形式组织的主题。同时,本文借鉴均值漂移(Mean Shift)聚类的思想提出一种基于主题带宽(Topic Bandwidth)的主题层次结构控制机制,其可自适应的决定主题节点的数目和主题层次的深度。此外,本文还提出在已有主题层次中检测新兴主题和消亡主题的标准,并基于这些标准实现主题层次结构的动态演化。实验结果表明,HONMF能够在更短的运行时间内发现更高质量的主题,并且可跟踪主题结构的变化。4)为了验证本文研究路线的整体效果和进一步提升HONMF的性能,提出了一种基于语义关系的半监督层次在线主题检测框架(Semantic Relation based Semi-supervised Hierarchical Online Non-negative Matrix Factorization,SSHONMF),其将本文前述研究工作整合融合到一套流程中。该流程首先根据语义词典和训练文档生成针对特定文本挖掘任务的概念层次,并基于其中的语义关系对原始文档矩阵进行调整。接着其会使用HONMF检测文本流中的主题层次,同时基于本文稀有类别检测方法中的选择指标从主题层次中选择出线索文档。最后,其将根据线索文档学习出新的相似度度量并用于后续的HONMF过程。实验结果表明,通过结合前述方法,SSHONMF的性能比HONMF有所提升,证明了本文研究路线的合理性和有效性。

其他文献

说“淮汭”与“豫章”:吴师入郢之役战争地理新探

公元前506年吴师入郢之役的战争地理过去共有三种论说。本文结合古文字资料、历史文献以及田野考察资料,重新解读"淮汭"与"豫章"两个关键地名,并以吴、楚之间的水、陆交通线

期刊

吴师入郢汭豫章水运军事地理The Wu Conquest of YingRuiYuzhangwater transportmilitary geogr

持续有效发展创建百年油田——大庆油田有限责任公司董事长、总经理王玉普访谈

在3月份召开的“两会”上,“可持续发展”、“和谐社会”成为“点击率”最高的词汇。以勘探开发不可再生的油气资源为主业的油田企业,同样面临着这一系列不可回避的问题。作

期刊

持续有效大庆油田有限责任公司大庆油田公司王玉普总经理

世界农业起源地的地理基础与中国的贡献

本文以世界三大农作物起源地为核心,提出粟、黍、水稻等农作物的驯化是中国为世界文明进程作出的最大贡献。还重点讨论了农作物起源地的环境属性,并指出农业最初产生之地并非

期刊