论文部分内容阅读
在一个信息爆炸的时代,如何在含有大量文本的数据中,准确把握脉络和重点,快速的获得有用的信息,并且合理的管理和使用这些信息,进而实现对数据体系更准确的判断和预测,已经成为当今亟待解决的问题。在不同种类的数据形式中,本文针对一种特定的含有文本的数据,即多维文本数据,开展研究。多维文本数据在商业、科学等领域都广泛存在,其数据实体既包含多维结构化数据,也包含描述性文本数据,大多数情况下,描述性文本数据中蕴含了很多重要信息。信息网络是我们分析研究中经常使用的模型工具,韩家炜等人开创性的提出可以利用信息网络分析方法,从数据库中发现知识。近年来,对于多维文本数据的研究大多在分类和聚类、情感分析、意见挖掘等方面,而新兴的信息网络分析方法的研究主要针对不含有文本属性的信息处理方面。目前这两类研究已经各自形成了较为系统的研究体系,并积累了一定的研究成果,而我们的研究是尝试推动两者交汇融合,改变以往属性数据和文本数据各自分别分析的不足。信息网络分析方法,分析的不仅仅是单一的实体节点,还包括节点间的相互联系,以及节点所蕴含的信息内容。本文中的信息网络,即是将具有文本内容、相互之间又具有联系的数据实体,抽象为图结构,以节点表示实体,以节点之间的边来表达实体之间的关联。利用信息网络分析方法对多维文本数据中的结构化属性数据和非结构化文本数据进行综合分析,互相促进,充分利用含有文本内容的多维文本数据的全部信息,为多维文本数据分析技术探索有效的分析手段。构建文本特征维度是对多维文本数据进行分析的重要基础和研究方法。文本特征维度,是指可以将文本文档集合映射成树节点,每个节点代表一个分类,特征维度树的根节点代表全体文档集合,每一层的节点代表相应的小类集合,使文本数据有维度层次的性质。本文探索如何利用信息网络分析方法在多维文本数据中自动构建文本特征维度,提高分析结果的可读性。一个有维度的文本数据集可以进行钻取、切片等OLAP操作,本文基于信息网络分析方法对多维文本数据集进行多社团发现并生成了特征维度树,提出了一种新的基于加权异构信息网络多社团发现的维度生成方法,将维映射为文本特征维,层映射为每次迭代计算生成的加权异构信息网络,度量映射为集合的特征短语。本文所作的工作如下:1.探索多维文本数据有效分析和建立文本特征维度的方法提出一种基于加权异构信息网络多社团发现的维度生成方法。与TopicCube、 MCX等单一文本数据分析方法等相比,本文的维度生成方法利用了信息网络分析方法来进行结构化属性类数据、非结构化文本类数据的综合分析,使用特征短语做度量,实现了生成非结构化文本类数据的文本特征维度,使得维度结果简单直观。通过实验验证该方法具有良好的发现效果。2.提出加权异构信息网络模型的构建方法提出一种基于关联路径的信息网络构建方法。针对难以进行更精细分析的文本对象时,寻找密切关联的新属性对象代表原文本对象进行分析,基于新旧对象关联共生的属性,对新对象的分析就是对原文本对象的进一步分析,达成创造新的证据支持对原文本对象进行分析的目的。提出的加权异构信息网络构建算法,将文本对象用向量空间模型表示,根据文档中特征短语出现的位置和词频,计算所有文档之间的内容相似度,构造文档-文档的关联边;根据作者之间的合作路径关系,修正计算所有文档之间的相似度;用文档间相似度的评价修正作者间相似度的权重,迭代计算同类节点间的权重,根据所有节点间关联边构造出加权异构信息网络。3.提出加权异构信息网络的按粒度进行多社团发现的维度生成算法提出一种针对加权异构信息网络的按粒度进行多社团发现的维度生成算法。对多维文本数据映射成的加权异构信息网络进行文档集合划分,从信息网络的粗粒度层次向细粒度层次逐层发现文档集合社团,从上向下发生,不断寻找相似度超过阈值的网络中的多社团结构,将文档集合的特征短语作为结果返回,然后,对文档集合按粗细粒度生成维度。