基于社团结构发现的数据仓库主题抽取的研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:dldx05444011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向主题是数据仓库的特征之一,面向主题是指数据仓库中的数据是按照主题进行组织的,合理地选取主题是数据仓库设计成功的前提条件。没有正确、合理的主题,就无法合理地组织数据,数据仓库建设也将失去其实际意义,因此如何确定数据仓库中的主题,对于数据仓库的建设显得十分重要。目前的数据仓库设计一般都是通过需求分析来确定主题,然而这种方法过多地依赖于设计者的经验和需求分析的准确性,往往难以保证主题要素选取的合理性。基于此,本文研究了数据仓库主题的抽取问题。基于复杂网络相关理论和社团结构发现算法,本文提出了一种从大量文献中抽取数据仓库主题的方法。通过提取文献中与某一领域相关的词,将词构建成一个复杂网络,发现网络中的社团,从而实现主题的抽取。对于加权网络中的社团发现问题,本文基于信息传播的思想,提出了一种基于信息传播的加权网络社团发现算法,该算法通过节点间的信息传播,将加权网络中的每个节点转换成具有信息的向量形式,从而将网络聚类转化为向量聚类,有效的解决了加权网络中的社团发现问题。运用本文提出的主题抽取方法,通过提取海冰文献中的与海洋领域相关的词,构建了一个加权的词关联网络,并对该词关联网络进行特征分析。将基于信息传播的社团发现算法运用到加权的词语关联网络中,发现网络中的社团结构,由节点与词的对应关系,实现了对数据仓库主题的抽取,为数据仓库的主题选取提供了辅助参考。
其他文献
Web服务其实就是一种运行在网络上的应用程序,它可以在Web环境中被描述、被发布、被查找以及被调用。虽然Web服务给应用程序的集成提供了方便,但单个Web服务的功能往往设计得
音频分类与分割是音频检索技术的前提和基础,他们为音频结构化和音频信息的深度分析奠定了坚实的基础。基于内容的音频分类属交叉学科研究,涉及众多相关技术,如语音信号处理、模
无线自组织网络路由协议根据不同的策略从已经建立好的拓扑中选择一条或多条相互连接的链路组成路径,来进行数据包的传输。当拓扑中存在如“热点”这样的特殊节点时,路由协议
目前对异构数据库的交换、信息访问和检索的需求变得越来越重要,相比之下,访问异构数据库需要处理不同的模式、不同的数据模型、不同的查询语言以及不同的接口。   本文旨在
网络、3G技术的发展促进了视频通信领域中具有较高压缩效率、更好的网络健壮性的视频压缩标准的应用和研究。但视频压缩编码的计算密集性和数据密集性依然是H.264/AVC等标准
医学图像三维可视化是一种将传统的计算机图形学的相关知识运用到医学领域中,在计算机上对医疗设备获取的二维断层图像,通过图形学技术的处理和转化,根据视觉原理显示为直观
自从曼德尔布罗特(Mandelbort)引入分形概念以来,分形作为一门新兴的非线性学科,受到了学术界的广泛重视。分形理论主要描述自然界与非线性系统中不规则的、具有自相似结构特
在当前信息技术高速发展的后PC时代,嵌入式系统已经广泛地渗透到人们的日常生活等方方面面中。IT技术大融合及“三网融合”加速了嵌入式系统产业化进程。随着家用电器向数字
作为一种生物认证识别技术,说话人识别技术具有远程控制的独特优势,在互联网发展日新月异的今天拥有非常广泛的应用前景。近年来出现的说话人识别主流方法如GMM-SVM, JFA 和
随着网络规模的日益扩大,网络上经常会出现偏离正常网络行为的异常流量。这些异常流量不仅会造成网络性能下降,更严重的会造成网络瘫痪。因此,如何在大规模网络环境下进行网