论文部分内容阅读
企业信息化与互联网的发展促使非结构化与半结构化数据不断增加。针对海量非结构化与半结构化数据进行挖掘分析成为近年来研究的热点。复杂网络与中文信息处理的最新研究成果为非结构化和半结构化数据挖掘提供了一个新方法和视角。即将中文信息处理技术与网络构建技术相结合,采用中文信息处理技术抽取非结构化数据中包含的信息,并构建网络进行分析,进一步挖掘其潜在信息。分析复杂网络在不同领域的应用,其主要包括两个阶段:网络构建与网络分析。网络构建是指从实际应用数据中,建立个体之间相互联系,构建关系网络。这是复杂网络应用的基础与关键。因此本文将以非结构化数据为对象,研究利用中文信息抽取技术构建多类型网络。首先,本文对文本聚类进行研究,并将其应用到数据集划分中,将数据集划分不同领域或主题的子数据集。通过对传统文本聚类的实现与分析,将复杂网络中的社区划分算法应用文本聚类中,实现基于社区划分算法的文本聚类,并取得一定的效果。其次,本文采用中文信息抽取技术抽取非结构化数据包含的实体相关信息。由于网络构建中边的重要性,本文主要对实体关系抽取进行研究。对传统的无监督聚类实体关系抽取算法中的实体对上下文信息收集以及实体对聚类两阶段进行改进,更快、更好的抽取非结构化数据中包含的实体关系。同时针对单文档以及稀疏文档集,本文实现了基于事件框架的实体关系抽取,以抽取用户指定的特殊实体关系。再者,通过比较复杂网络在不同领域的应用,分析与总结出常用的网络类型,即同质、异质、动态网络。根据非结构化数据的信息元素的多维性,从不同的视角与维度出发,构建了文档-文档关系网络、文档-实体关系网络、实体-实体关系网络以及动态网络。最后,设计并实现多类型网络构建原型系统,将本文中的研究内容融入其中。分别对各研究内容与原型系统进行实验,以验证其有效性。