海量短语信息挖掘技术的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:hellobaby54088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互连网和信息技术的飞速发展造成海量的数据积累,其中很大一部分是短文数据,如文章摘要和聊天室的会话。对海量的短文数据进行自动的分析和挖掘,从中获取有价值的隐含知识,已经成为一项迫切的需求。与普通文档不同,短文中关键词出现的次数很少,传统的基于词频的文本挖掘技术在处理短文数据时很难得到可接受的准确度。同时,面对几百GB甚至TB级的海量数据,传统的文本挖掘算法变的很低效甚至根本无法运行。本文在对海量短语信息挖掘的研究现状和面临的挑战进行深入分析的基础上,以海量数据处理系统项目为背景、以开发高准确度和高可伸缩性的海量短语信息挖掘算法为目标,在海量短语信息数据库中的频繁词集挖掘、分类、聚类等方面开展了深入的研究。为了提高挖掘算法的准确度主要采用了基于语义的方法。为了提高算法的性能和可伸缩性主要采用了并行化的方法。本文的贡献主要包括以下方面:1.针对海量短文本数据库中的频繁词集挖掘所面临的挑战,提出了一个top-k频繁词集挖掘的并行算法parTFT。该算法使用了一种新颖的逻辑纵向数据划分方法来确保top-k频繁词集挖掘能够在各数据分区中并行执行。同时在每个挖掘结点通过启发策略来裁剪H-struct的header table,从而提高算法的性能。实验结果表明该算法在进行海量短文数据库中的频繁词集挖掘时具有比同类算法更好的性能和可伸缩性。parTFT算法的相关成果发表在第六届Web时代信息管理大会(WAIM2005)上,SCI检索号BDG49。2.针对短语信息分类中的低准确度问题,提出了一个基于语义的短文分类算法SDCS。该算法使用文本语义特征图来表示语义信息,并通过K-近邻(KNN)的思想来进行短文分类。实验结果表明该算法在处理大规模短文数据时,性能和准确度都超过了其它的短文分类算法。相应的成果已投计算机研究与发展杂志。3.在对短文本聚类面临的挑战进行分析的基础上,针对不同的应用需求提出了基于频繁词集的短文本聚类算法FTSDC和基于密度的短文本聚类算法DSDC。FTSDC首先根据频繁词集进行初始簇划分,然后利用语义信息进行簇优化。DSDC使用语义信息来计算样本距离,基于共享近邻(SNN)图来进行基本聚类,并通过数据抽样和子图划分来实现并行聚类。实验结果表明两种方法在准确度和可伸缩性上都比类似的算法有一定的提高。FTSDC的相关成果发表在WISE2006的研讨会“基于Web的海量信息处理(WMDP2006)”上,SCI检索号BFF82。DSDC的相应成果已投软件学报。4.针对基于语义信息的文本挖掘中准确度仍然有待提高以及语义信息不易管理和交换的问题,定义了领域本体并给出了其构建方法,并在此基础上提出了基于频繁词集和领域本体的聚类方法OFSDC,以及基于密度和领域本体的聚类方法DFSDC。实验结果表明基于领域本体的文本挖掘方法能够更好地利用语料中的语义信息,从而获得更高的准确度。OFSDC的相关成果发表在VLDB2006的研讨会“数据库和信息系统中基于本体的技术(ODBIS2006)”上,SCI检索号待查。5.在对并行数据挖掘的体系结构进行研究的基础上,提出了基于CORBA的海量短语信息并行挖掘体系结构,并在大规模事务处理中间件StarTPMonitor的背景下实现了海量短语信息挖掘引擎。
其他文献
针对火车通过铁路和公路交叉口时会出现危险,为避免这种情况发生,设计了一个火车交通预警控制器,文章介绍了该控制器的基本电路构成,若应用此控制器,将在一定程度上保证火车
目的了解云浮市食源性疾病、食品中化学污染物以及致病微生物的监测情况,为云浮市食品安全风险监管提供科学依据。方法按照《2016年广东省食品安全风险监测工作手册》的要求
针对《岩石力学与工程》课程在采矿工程专业中教学质量存在的不足,借鉴法国大学在提高学生学习责任感、实践能力、独立思考能力的先进教学方法,根据本校对本课程教学组织的实际
二电平Buck电路的闭环控制系统不能满足系统的性能要求,为了提高系统二电平Buck电路的闭环控制系统的静态和动态性能指标,加入补偿网络对系统进行校正与仿真。仿真结果表明系
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的调查1起食源性疾病事件的发生原因,为预防类似事件发生提供参考依据。方法采用现场流行病学和病例对照研究方法,制定病例定义,开展病例搜索,结合病例临床、就餐史等信息
本文通过梳理青番茄图书馆的发展历程,对其服务模式的转型进行了分析,同时还提出了自己对这一转型的看法,即对于在线实体图书馆自身的发展和我国公共图书馆事业的总体发展来说,这
目的了解肠道腹泻病毒在舟山市海产贝类的分布和食源性腹泻病例中的感染特征以及两者相关联系,为预防和控制食源性疾病提供有效的对策和措施。方法采用荧光定量聚合酶链式反
目的:了解2型糖尿病患者膳食和血糖负荷的摄入现况及影响因素。方法:应用膳食回顾法对311例2型糖尿病患者膳食摄入现况进行调查。结果:本次调查的311名2型糖尿病患者中接受过