面向文本的多属性异质网络聚类技术研究

来源 :国防科学技术大学 | 被引量 : 2次 | 上传用户:westlink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络以及各种新闻媒体的蓬勃发展,为用户带来丰富的网络与文本信息,也极大地推动了学术界对网络和文本的分析与挖掘研究。海量的舆论信息也促使政府部门、事业单位和商业公司纷纷开始建设舆情分析系统以帮助了解自身形象、掌握舆情动态、营销产品或服务。作为舆情分析系统的核心技术之一,聚类分析尤其是融合了文本信息的网络图聚类分析技术近年来受到学术界的广泛关注和研究。面对主题分散、类型不同、结构各异的文本和网络数据,如何有效地进行聚类分析从而实现话题发现与知识挖掘?具体地,如何构建一个高效的文本与网络数据聚类分析框架?如何针对不同来源的文本构建聚类分析模型以更有效地结合知识库信息提升聚类质量?针对话题相近但形式不同的多源数据,如何及时有效地融合它们并发现相关的舆情热点?另外,如何对用户的偏好信息建模以更有针对性地对目标对象聚类?针对上述问题和挑战,本文以多属性异质网络的聚类问题为研究核心,重点研究了面向多属性异质网络聚类分析的构建框架、面向多属性异质网络聚类表示模型、多属性异质网络互聚类以及多标注的网络聚类分析这四个问题,发表了相关研究成果。本文的研究内容和创新点如下:1.针对舆情分析系统中面向文本的多属性异质网络的构建与分析问题,本文在充分分析多属性异质网络的相关概念、实体对象以及节点属性来源的基础上,提出了一种面向多属性异质网络的聚类分析框架。针对网络节点属性的抽取问题,本文首先分析了多属性异质网络节点属性的来源;并以节点情感属性为例,提出了一种基于规则的面向专属领域的情感属性解析方法,并给出了网络节点情感属性的分析流程,在相关数据集上的实验结果验证了本文所提出情感属性分析方法的有效性。2.针对面向文本的多属性网络数据难以有效地进行聚类分析与知识发现的问题,本文提出了一种面向多种网络文本的异构信息网络表示模型,抽取文本中的各种结构化的对象构建面向文本聚类的异构信息网络。具体地,本文考虑了不同类型的文本的词、实体、标签等多种类型的对象,构建了微博(推文)和新闻文本的“星型”网络元结构,进而以此为基础构建了多源文本的异构信息网络。随后,本文参考经典的基于信息论的协同聚类模型,设计了面向异构信息网络的文本聚类模型,并利用对象的属性信息作为网络文本协同聚类的约束条件。在四个真实数据集上的实验结果验证了本文所提出的基于异构信息网络的文本表示方法的有效性。3.针对多源文本数据如何实现不同文本互聚类分析以发现跨网络平台舆情热点的问题,本文提出了一种基于异构信息网络的多源文本互聚类分析框架(Heterogeneous Information Network-based Text clustering,HINT)。为解决多源相关信息的关联问题,将不同来源的文本信息有效融合从而实现互聚类,本文将存在URL关联的两种文本定义为信息关联和相关语义传递的锚文本(Anchor Texts),并在此基础上构建了基于异构信息网络的信息矩阵以及信息转移矩阵。随后,本文以谱聚类方法为基础将异构文本互聚类问题转换为一个包含两个未知变量的非凸目标方程下的优化问题,并设计了一个对偶迭代方法利用曲线搜索算法对上述优化问题求解。在实际数据集上的大量实验表明,HINT框架比相关的对比模型表现更好、更有效。4.针对舆情系统中难以融合多专家知识以实现有针对性的目标聚类的问题,本文提出了一种面向多稀疏标注的多属性图聚类方法(Clustering Graphs with Multiple Annotations,CGMA)。为有效融合来自多个标注者的稀疏标注,本文首先提出了一种基于属性空间的映射方法,将不同的标注映射到相同属性空间并表示成属性权重向量,然后利用一种基于密度的聚类方法综合多标注者的意见,实现了多标注的有效融合;为提高算法的可扩展性,本文进一步研究了使用局部聚类和加权网络割集的方法降低算法的复杂度,并研究设计了分布式算法版本提高了算法的处理性能。本文提出的方法具有接近线性方法的时间复杂度,可以很好地处理大型网络的相关问题。综上所述,本文深入研究了舆情分析系统中的多属性异质网络的聚类分析问题,重点围绕如何通过相关约束改善聚类质量、提高可解释性水平,研究了利用知识库约束、关联约束以及用户引导约束等方法,提升多属性异质网络聚类分析水平。本文研究的问题和使用的方法在理论上都具有一定创新性,在实践上可以增强社会舆情系统性能、提升舆情分析水平。舆情是国情的重要组成部分,本文的研究对关系国家安全和社会发展的面向大数据的舆情分析系统具有重要价值。
其他文献
中国房间空调器市场正由定速产品为主转化为以变频产品为主,同时面临着节能和制冷剂替代的双重挑战,如何实现定速房间空调器和变频房间空调器能效国家标准的升级,保证产业的
小蠹虫是近几年在新疆榆树及其嫁接品种上普遍发生的一种蛀干害虫,危害大、损失严重,给新疆的环境绿化美化带来了极大损失。本文结合小蠹虫防治实践,阐述了小蠹虫在新疆阜康市准
目的 :总结中医治疗外感发热的组方用药规律。方法 :收集整理中医治疗外感发热相关经典方剂,并录入至中医传承辅助系统,运用软件集成的数据改进互信息法、复杂系统熵聚类法、无
目的观察卡巴拉汀(商品名:艾斯能)联合高压氧对老年认知功能障碍患者脑脊液中的t-tau蛋白、p-tau181蛋白和Aβ42的影响。方法收集2014年1月—2015年12月湖北省黄冈市中心医院神
用徐著18X绵粉一号的F1代实生苗植株对甘薯的七个性状进行了通径分析。结果表明:薯干产量与鲜苕产量关系最密切(r=0.9332**),与烘干率相关不显著(r=0.1894),分枝数与鲜苕产量极显著相关(r
面向标准的实际应用,通过与GB/T21362--2008《商业或工业用及类似用途的热泵热水机》的比较,从产品定义与型式、实验基本参数、性能要求、试验方法、检验规则5个方面解析JB/T1284
国内学界对境内夏尔巴人的研究主要基于对历史文献的解释和分析来探究其历史和背景,很少有对夏尔巴人在喜马拉雅山地区上百年的定居、迁徙、适应及其内部机制等的研究。鉴于
乡村振兴战略是三农政策从城乡统筹到城乡融合的升级与跨越,实施这一战略是新时代三农工作的总抓手。针对农民就业、增收以及农村治理等方面存在的突出问题和人才缺乏这一乡
目的 观察瑞舒伐他汀对冠心病伴高脂血症的临床疗效及对血脂、炎性介质和内皮指标的影响。方法选择2015年2月—2017年2月四川省甘孜州人民医院心血管内科住院治疗的冠心病伴