半结构化数据挖掘若干问题研究

被引量 : 0次 | 上传用户:zhangstian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的发展,半结构化数据因其层次性、自述性、动态可变性等特点,被广泛应用。网络上的HTML文档、XML文档、SGML文档、Web数据以及由异构数据集成而产生的数据等都是半结构化数据。半结构化数据编码方式与结构化数据(如关系型数据库中的数据、Excel数据等)不同。面对海量的半结构化数据,传统的数据挖掘算法不能够很好地利用其自述性、动态可变性和层次性等特点。传统的结构化数据处理技术并不适用于半结构化数据,所以,有必要研究挖掘半结构化数据的新方法。本文根据半结构化数据的特点,以XML文档和树形数据结构为例,主要研究半结构化频繁模式、动态频繁模式、聚类、动态数据集聚类和民族织物模型等领域,并提出解决半结构化数据挖掘若干问题的方法。为了有效的挖掘树形结构数据集频繁模式,本文首先提出压缩链结构,压缩链可映射为无序标签树,之后提出基于压缩链的压缩树模型,压缩树节点标签是一压缩链结构,因此可对压缩树进行压缩而不丢失原树信息。进一步,提出一种带有数据集压缩的频繁闭合诱导子树挖掘方法CITMinerC。CITMinerC算法基于模式增长策略,首先对原始数据集进行压缩树建模并进行剪边预处理,然后反复迭代数据集将最大频繁度的边压缩为单压缩节点并将边信息保存在压缩节点的压缩链中,最后对压缩链进行闭合化,得到原始数据集的频繁闭合诱导子树集。CITMinerC优点在于随最小频繁度阈值降低计算量成线性增长。实验表明,在人工数据集及真实数据集上进行频繁子树挖掘,CITMinerC算法均优于DryadeParent算法。XML数据在实际使用过程中不断发生改变,针对XML数据动态可变的特点,提出一种根据XML数据变化过程挖掘XML空间频繁变化结构SFCS(Spatial FrequentlyChanging Structure)的方法,首先提出XML子结构空间度量方法,通过结构空间变化度SSCD、版本空间变化度VSCD和空间变化程度SCD三个度量值衡量XML子结构的空间变化频繁性并提出SFCS定义。进一步,提出一种用于保存XML空间变化信息和发现SFCS的数据模型SC-DOM,论证了XML编辑操作对子结构空间的影响并据此提出SC-DOM状态动态迁移方式,最后提出根据SC-DOM发现SFCS的算法并讨论算法复杂度。实验结果表明SFCS是频繁的,使用SC-DOM模型进行SFCS挖掘是有效且可扩展的。以XML为代表的半结构化数据的处理与管理是比较热门的研究课题。目前关于XML文档数据集聚类的方法大多忽略XML层数特性,认为不同层数操作是等费用的。本文提出一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。实验在ACM SIGMOD数据集和人工生成的数据集上进行,实验结果表明,在基本相同的时间消耗情况下,CXLI方法具有更好的精确度。在实际应用中,XML文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,本文首先提出了发现频繁变化结构的方法,然后使用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能够较好的将XML文档进行聚类。使用加权余弦相似度对XML文档进行聚类,聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。所以使用加权余弦相似度对XML文档进行聚类是有效的。少数民族民间织物图案蕴含大量民族文化信息。目前,民族织物图案使用位图格式存储,进行精确的数据挖掘存在较大难度。本文首先讨论民族织物图案形状特点,提出带有文化信息的矢量图基因模型。进一步,讨论民族织物图案基因组成的构图模式,提出一种基于半结构化数据的民族织物图案模型,该模型描述民族织物图案的外形信息、文化信息和基因间关系信息。经实验证明,本文模型能够正确完备的描述以哈萨克族、柯尔克孜族、蒙古族和维吾尔族为例民族织物图案,并具备数据挖掘能力。
其他文献
随着社会经济的不断发展,为我国建筑行业的发展提供了极大的推动作用,不断满足着人们日益增长的物质需求,但是,人们对于建筑的需求量也是越来越大,进而难免的会出现一些资源
随着经济的快速发展,电力系统和电网结构都有了较为明显的改进,经济的发展,使工农业生产进程的加快,对电能的需求量加大,也对电网的稳定运行提出了更高的要求,随着电网改造速
随着我国社会经济和农业生产力的发展,农产品供给情况从短缺逐步走向剩余,这直接导致了农产品生产者“卖难”的问题。与此同时,生活水平的不断提高导致消费者对农产品的需求从温
“作格”在英语中叫ergative,在中国也被翻译为施格、唯动格、唯被动格等。作格现象最早指作格语言中不及物动词主语和及物动词宾语标注同一种格(通格),而及物动词主语标注另
采用质量源于设计(QbD)理念获得了注射用米氮平冻干工艺一次干燥操作参数的设计空间。采用析因设计考察隔板温度和真空度对冻干过程中制品温度和一次干燥所需时间的影响。经D
随着电信市场竞争的日趋激烈,中国电信集团公司从以产品为中心企业经营模式逐渐转变成以客户为中心企业经营模式。客户是企业最宝贵的资源。客户关系管理就是实现客户价值。客
尽管许多肿瘤的基因治疗策略旨在以消灭肿瘤细胞为最终目标,抑制肿瘤生长,并赋予较长生存时间,增强抗肿瘤免疫反应并诱导长期免疫监视同样重要。先天免疫应答不仅在适应性免疫应
肝细胞癌(Hepatocellular carcinoma,HCC)是世界范围内最常见且恶性程度最高的肿瘤之一,根据世界卫生组织GLOBOCAN2008数据统计,位居男性恶性肿瘤发病率的第五位,死亡顺位的第二位,
资源禀赋与经济增长一直以来都是经济学家十分关注的问题。20世纪60年代之前,学术界对于资源的作用是积极肯定的,基本的共识是,丰富的资源、特别是矿产资源是工业化起步“助推器
环境样品中的污染物和药物样品中的有效成分的萃取一直是分析化学的重要研究内容。因为环境样品和药物样品的基质较为复杂,不能够直接用气相或液相色谱法分析,需要采用适当的前