论文部分内容阅读
社交网络以及各种新闻媒体的蓬勃发展,为用户带来丰富的网络与文本信息,也极大地推动了学术界对网络和文本的分析与挖掘研究。海量的舆论信息也促使政府部门、事业单位和商业公司纷纷开始建设舆情分析系统以帮助了解自身形象、掌握舆情动态、营销产品或服务。作为舆情分析系统的核心技术之一,聚类分析尤其是融合了文本信息的网络图聚类分析技术近年来受到学术界的广泛关注和研究。面对主题分散、类型不同、结构各异的文本和网络数据,如何有效地进行聚类分析从而实现话题发现与知识挖掘?具体地,如何构建一个高效的文本与网络数据聚类分析框架?如何针对不同来源的文本构建聚类分析模型以更有效地结合知识库信息提升聚类质量?针对话题相近但形式不同的多源数据,如何及时有效地融合它们并发现相关的舆情热点?另外,如何对用户的偏好信息建模以更有针对性地对目标对象聚类?针对上述问题和挑战,本文以多属性异质网络的聚类问题为研究核心,重点研究了面向多属性异质网络聚类分析的构建框架、面向多属性异质网络聚类表示模型、多属性异质网络互聚类以及多标注的网络聚类分析这四个问题,发表了相关研究成果。本文的研究内容和创新点如下:1.针对舆情分析系统中面向文本的多属性异质网络的构建与分析问题,本文在充分分析多属性异质网络的相关概念、实体对象以及节点属性来源的基础上,提出了一种面向多属性异质网络的聚类分析框架。针对网络节点属性的抽取问题,本文首先分析了多属性异质网络节点属性的来源;并以节点情感属性为例,提出了一种基于规则的面向专属领域的情感属性解析方法,并给出了网络节点情感属性的分析流程,在相关数据集上的实验结果验证了本文所提出情感属性分析方法的有效性。2.针对面向文本的多属性网络数据难以有效地进行聚类分析与知识发现的问题,本文提出了一种面向多种网络文本的异构信息网络表示模型,抽取文本中的各种结构化的对象构建面向文本聚类的异构信息网络。具体地,本文考虑了不同类型的文本的词、实体、标签等多种类型的对象,构建了微博(推文)和新闻文本的“星型”网络元结构,进而以此为基础构建了多源文本的异构信息网络。随后,本文参考经典的基于信息论的协同聚类模型,设计了面向异构信息网络的文本聚类模型,并利用对象的属性信息作为网络文本协同聚类的约束条件。在四个真实数据集上的实验结果验证了本文所提出的基于异构信息网络的文本表示方法的有效性。3.针对多源文本数据如何实现不同文本互聚类分析以发现跨网络平台舆情热点的问题,本文提出了一种基于异构信息网络的多源文本互聚类分析框架(Heterogeneous Information Network-based Text clustering,HINT)。为解决多源相关信息的关联问题,将不同来源的文本信息有效融合从而实现互聚类,本文将存在URL关联的两种文本定义为信息关联和相关语义传递的锚文本(Anchor Texts),并在此基础上构建了基于异构信息网络的信息矩阵以及信息转移矩阵。随后,本文以谱聚类方法为基础将异构文本互聚类问题转换为一个包含两个未知变量的非凸目标方程下的优化问题,并设计了一个对偶迭代方法利用曲线搜索算法对上述优化问题求解。在实际数据集上的大量实验表明,HINT框架比相关的对比模型表现更好、更有效。4.针对舆情系统中难以融合多专家知识以实现有针对性的目标聚类的问题,本文提出了一种面向多稀疏标注的多属性图聚类方法(Clustering Graphs with Multiple Annotations,CGMA)。为有效融合来自多个标注者的稀疏标注,本文首先提出了一种基于属性空间的映射方法,将不同的标注映射到相同属性空间并表示成属性权重向量,然后利用一种基于密度的聚类方法综合多标注者的意见,实现了多标注的有效融合;为提高算法的可扩展性,本文进一步研究了使用局部聚类和加权网络割集的方法降低算法的复杂度,并研究设计了分布式算法版本提高了算法的处理性能。本文提出的方法具有接近线性方法的时间复杂度,可以很好地处理大型网络的相关问题。综上所述,本文深入研究了舆情分析系统中的多属性异质网络的聚类分析问题,重点围绕如何通过相关约束改善聚类质量、提高可解释性水平,研究了利用知识库约束、关联约束以及用户引导约束等方法,提升多属性异质网络聚类分析水平。本文研究的问题和使用的方法在理论上都具有一定创新性,在实践上可以增强社会舆情系统性能、提升舆情分析水平。舆情是国情的重要组成部分,本文的研究对关系国家安全和社会发展的面向大数据的舆情分析系统具有重要价值。