基于加权异构信息网络的多维文本数据分析技术研究

被引量 : 0次 | 上传用户:liongliong483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在一个信息爆炸的时代,如何在含有大量文本的数据中,准确把握脉络和重点,快速的获得有用的信息,并且合理的管理和使用这些信息,进而实现对数据体系更准确的判断和预测,已经成为当今亟待解决的问题。在不同种类的数据形式中,本文针对一种特定的含有文本的数据,即多维文本数据,开展研究。多维文本数据在商业、科学等领域都广泛存在,其数据实体既包含多维结构化数据,也包含描述性文本数据,大多数情况下,描述性文本数据中蕴含了很多重要信息。信息网络是我们分析研究中经常使用的模型工具,韩家炜等人开创性的提出可以利用信息网络分析方法,从数据库中发现知识。近年来,对于多维文本数据的研究大多在分类和聚类、情感分析、意见挖掘等方面,而新兴的信息网络分析方法的研究主要针对不含有文本属性的信息处理方面。目前这两类研究已经各自形成了较为系统的研究体系,并积累了一定的研究成果,而我们的研究是尝试推动两者交汇融合,改变以往属性数据和文本数据各自分别分析的不足。信息网络分析方法,分析的不仅仅是单一的实体节点,还包括节点间的相互联系,以及节点所蕴含的信息内容。本文中的信息网络,即是将具有文本内容、相互之间又具有联系的数据实体,抽象为图结构,以节点表示实体,以节点之间的边来表达实体之间的关联。利用信息网络分析方法对多维文本数据中的结构化属性数据和非结构化文本数据进行综合分析,互相促进,充分利用含有文本内容的多维文本数据的全部信息,为多维文本数据分析技术探索有效的分析手段。构建文本特征维度是对多维文本数据进行分析的重要基础和研究方法。文本特征维度,是指可以将文本文档集合映射成树节点,每个节点代表一个分类,特征维度树的根节点代表全体文档集合,每一层的节点代表相应的小类集合,使文本数据有维度层次的性质。本文探索如何利用信息网络分析方法在多维文本数据中自动构建文本特征维度,提高分析结果的可读性。一个有维度的文本数据集可以进行钻取、切片等OLAP操作,本文基于信息网络分析方法对多维文本数据集进行多社团发现并生成了特征维度树,提出了一种新的基于加权异构信息网络多社团发现的维度生成方法,将维映射为文本特征维,层映射为每次迭代计算生成的加权异构信息网络,度量映射为集合的特征短语。本文所作的工作如下:1.探索多维文本数据有效分析和建立文本特征维度的方法提出一种基于加权异构信息网络多社团发现的维度生成方法。与TopicCube、 MCX等单一文本数据分析方法等相比,本文的维度生成方法利用了信息网络分析方法来进行结构化属性类数据、非结构化文本类数据的综合分析,使用特征短语做度量,实现了生成非结构化文本类数据的文本特征维度,使得维度结果简单直观。通过实验验证该方法具有良好的发现效果。2.提出加权异构信息网络模型的构建方法提出一种基于关联路径的信息网络构建方法。针对难以进行更精细分析的文本对象时,寻找密切关联的新属性对象代表原文本对象进行分析,基于新旧对象关联共生的属性,对新对象的分析就是对原文本对象的进一步分析,达成创造新的证据支持对原文本对象进行分析的目的。提出的加权异构信息网络构建算法,将文本对象用向量空间模型表示,根据文档中特征短语出现的位置和词频,计算所有文档之间的内容相似度,构造文档-文档的关联边;根据作者之间的合作路径关系,修正计算所有文档之间的相似度;用文档间相似度的评价修正作者间相似度的权重,迭代计算同类节点间的权重,根据所有节点间关联边构造出加权异构信息网络。3.提出加权异构信息网络的按粒度进行多社团发现的维度生成算法提出一种针对加权异构信息网络的按粒度进行多社团发现的维度生成算法。对多维文本数据映射成的加权异构信息网络进行文档集合划分,从信息网络的粗粒度层次向细粒度层次逐层发现文档集合社团,从上向下发生,不断寻找相似度超过阈值的网络中的多社团结构,将文档集合的特征短语作为结果返回,然后,对文档集合按粗细粒度生成维度。
其他文献
对216例胆汁反流性胃炎临床资料进行全面回顾分析。从其发病特点、临床症状、舌脉象、胃镜像、病理等方面入手研究本病。结果提示:本病以胆邪犯胃为主要证候,治疗以疏胆和胃为大法
<正> "我们组织部长竟当起了钟馗!"这是笔者从一个组织工作座健合上听到的诉苦声。详听内情,方知苦从"会"来。原来现在不少地方,若遇老大难任务,如计划生育、乱摊派、乱罚款
期刊
<正> 今年8月2日凌晨2点,激烈的枪炮声突然打破了宁静的波斯湾北部夜空。伊拉克出动14个师的兵力,在300多辆坦克、装甲车和飞机的配合下大举入侵科威特,科威特军队虽顽强抵抗
生态环境部门作为生态文明建设和生态环境保护的“排头兵”,不忘初心、牢记使命,就要以高度的政治站位、敏锐的思想认识、务实的工作作风、过硬的措施办法,坚守生态环境质量只能
报纸
目的:1、探讨Ⅱ期结肠癌患者根治术后DNA错配修复基因缺失与临床特征相关性及预后分析。2、DNA错配修复基因缺失患者术后辅助化疗疗效预测。方法:回顾性分析2002年1月1日至2008
摘要:张咏(公元946—1015),宋初名臣,历经宋太宗和宋真宗,以政绩尤其以“治蜀”而称颂于世。忙碌于冗繁的政务中的张咏却不失才情,创作了数量不多但内容丰富、风格独特的诗文,由其弟
生态化学计量学,以研究多重化学元素平衡关系为目标,通过研究主要化学元素(C、N、P等)的计量关系来揭示有机体的特性及行为与生态系统间的相互关系,可以把个体、群落、景观等不同
一.目的与意义人胚胎的发育成熟及着床是一个复杂的过程。其过程包括:受精卵形成,并沿着输卵管向子宫腔内移动,同时伴随卵裂。经历2-细胞期,4-细胞期,8-细胞期后,逐渐发育形成含有多
锂/空气电池近年来备受关注,因为其极高的理论容量而可以应用于动力汽车或其他先进电子设备中。如果该系统能研究成功,将有望取代汽油作为动力汽车的能量装置。但是该目标的
目的:探讨手术标本管理存在的问题,以完善手术标本管理的规章制度。方法:回顾性分析南京医科大学第一附属医院2010年至今的手术标本资料并进行总结。结果:2010年需行病理检查