论文部分内容阅读
互连网和信息技术的飞速发展造成海量的数据积累,其中很大一部分是短文数据,如文章摘要和聊天室的会话。对海量的短文数据进行自动的分析和挖掘,从中获取有价值的隐含知识,已经成为一项迫切的需求。与普通文档不同,短文中关键词出现的次数很少,传统的基于词频的文本挖掘技术在处理短文数据时很难得到可接受的准确度。同时,面对几百GB甚至TB级的海量数据,传统的文本挖掘算法变的很低效甚至根本无法运行。本文在对海量短语信息挖掘的研究现状和面临的挑战进行深入分析的基础上,以海量数据处理系统项目为背景、以开发高准确度和高可伸缩性的海量短语信息挖掘算法为目标,在海量短语信息数据库中的频繁词集挖掘、分类、聚类等方面开展了深入的研究。为了提高挖掘算法的准确度主要采用了基于语义的方法。为了提高算法的性能和可伸缩性主要采用了并行化的方法。本文的贡献主要包括以下方面:1.针对海量短文本数据库中的频繁词集挖掘所面临的挑战,提出了一个top-k频繁词集挖掘的并行算法parTFT。该算法使用了一种新颖的逻辑纵向数据划分方法来确保top-k频繁词集挖掘能够在各数据分区中并行执行。同时在每个挖掘结点通过启发策略来裁剪H-struct的header table,从而提高算法的性能。实验结果表明该算法在进行海量短文数据库中的频繁词集挖掘时具有比同类算法更好的性能和可伸缩性。parTFT算法的相关成果发表在第六届Web时代信息管理大会(WAIM2005)上,SCI检索号BDG49。2.针对短语信息分类中的低准确度问题,提出了一个基于语义的短文分类算法SDCS。该算法使用文本语义特征图来表示语义信息,并通过K-近邻(KNN)的思想来进行短文分类。实验结果表明该算法在处理大规模短文数据时,性能和准确度都超过了其它的短文分类算法。相应的成果已投计算机研究与发展杂志。3.在对短文本聚类面临的挑战进行分析的基础上,针对不同的应用需求提出了基于频繁词集的短文本聚类算法FTSDC和基于密度的短文本聚类算法DSDC。FTSDC首先根据频繁词集进行初始簇划分,然后利用语义信息进行簇优化。DSDC使用语义信息来计算样本距离,基于共享近邻(SNN)图来进行基本聚类,并通过数据抽样和子图划分来实现并行聚类。实验结果表明两种方法在准确度和可伸缩性上都比类似的算法有一定的提高。FTSDC的相关成果发表在WISE2006的研讨会“基于Web的海量信息处理(WMDP2006)”上,SCI检索号BFF82。DSDC的相应成果已投软件学报。4.针对基于语义信息的文本挖掘中准确度仍然有待提高以及语义信息不易管理和交换的问题,定义了领域本体并给出了其构建方法,并在此基础上提出了基于频繁词集和领域本体的聚类方法OFSDC,以及基于密度和领域本体的聚类方法DFSDC。实验结果表明基于领域本体的文本挖掘方法能够更好地利用语料中的语义信息,从而获得更高的准确度。OFSDC的相关成果发表在VLDB2006的研讨会“数据库和信息系统中基于本体的技术(ODBIS2006)”上,SCI检索号待查。5.在对并行数据挖掘的体系结构进行研究的基础上,提出了基于CORBA的海量短语信息并行挖掘体系结构,并在大规模事务处理中间件StarTPMonitor的背景下实现了海量短语信息挖掘引擎。