【摘 要】
:
随着互联网的普及以及异构数据的频繁交换,半结构化数据的规模快速增长。如何从这些半结构化数据中获得有价值的知识和信息,已经成为数据挖掘领域的一大挑战。半结构化数据挖
论文部分内容阅读
随着互联网的普及以及异构数据的频繁交换,半结构化数据的规模快速增长。如何从这些半结构化数据中获得有价值的知识和信息,已经成为数据挖掘领域的一大挑战。半结构化数据挖掘困难的原因是因为半结构数据并不具备像结构化数据一样严格的结构,使得已有的数据挖掘算法并不适用于对其进行挖掘。因此,本文设计实现了半结构化数据挖掘系统,将数据挖掘技术用于半结构化数据的挖掘。本文分析了半结构化数据的相关技术以及对比了多种数据挖掘算法,确定了将XML数据以及序列模式挖掘作为研究的方向。本文主要完成了以下工作:首先,选择了标签序列表示法作为XML数据的表示方法,并在此基础上,提出了用于表示多个XML文档的复合标签序列表示法。其次,对prefixspan算法的工作流程以及优缺点进行了详细的分析。提出了投影坐标的概念,并使用投影坐标改进了prefixspan序列模式挖掘算法,设计了IPBPC算法。并进一步对IPBPC算法进行优化,给出了针对简单序列数据库挖掘的prefixspan-simp算法。设计实验对IPBPC算法和prefixspan-simp算法的效率进行验证。最后,设计实现了半结构化数据挖掘系统,进行了XML文档挖掘实验,实现了从数据导入、序列挖掘最后到结果展示的一系列功能,说明本文系统的可行性和实用性。实验结果表明本文设计的半结构化数据挖掘系统能够在一定程度上解决半结构化数据挖掘问题。
其他文献
目的:观察不同介质的小儿推拿治疗小儿肌性斜颈的临床疗效。方法:将80例肌性斜颈的患儿随机分为观察组和对照组,每组40例。两组均接受常规小儿推拿手法治疗,观察组用白脉软膏
对于目前较为常见的地下车库基础低于相连多高层基础标高时的基础型式,进行了较详细的受力分析。指出采用此类基础时,为确保基础稳定,应确保高差处挡墙的稳定。为此,在挡墙的
立足于乌鲁木齐市中心城区平面信号控制交叉口,以乌鲁木齐市西虹西路与南昌南路交叉口为例,通过调查不同天气下交叉口的交通流特性,研究正常与不良天气下信控交叉口机动车的
我国建立经济适用房REITs具有必要性和可行性,但目前存在一定的法律障碍。借鉴美国的经验,我国经济适用房REITs可采用较为保守的契约型方式设立,允许公众参与,严格限制信托人
目的了解本院门诊糖皮质激素使用情况,为临床合理用药提供参考。方法抽取本院2015年1月~2016年12月门诊各科室每月15日处方500张,共计12000张,其中使用糖皮质激素类处方有1425
以"创新唤醒农业,艺术连接城乡"为主题的2017北京休闲农业主题展,其中的"新农人"主题活动及展览不仅讲述了"新农人"感人的创业故事,而且也展现了新时代我国现代农业发展的希
自2004年以来,陆续上市了一些含果糖制剂,其中单方制剂有果糖注射液和注射用果糖等,复方制剂有果糖氯化钠注射液、转化糖注射液、注射用转化糖和转化糖电解质注射液等。这些
随着信息时代的发展,信息技术与学科课程相整合已成为当今教育发展和改革的一个关键点,并促使探究式教学被广泛应用到教学活动中。地理学科需要学生有很强的空间感,而且一些
文章对阎若璩在《四书释地续.邑姜》一文中关于太原晋祠圣母殿之圣母是晋始封君唐叔虞之母邑姜的观点提出质疑。从周代的宗庙制度来看,唐叔虞是晋国的始封君,在晋国属于百年
目的对无锡地区婴幼儿念珠菌病的发病因素进行分析,对婴幼儿念珠菌病的诊断与治疗进行归纳和总结。方法分析无锡地区2014年全年于我院儿童皮肤科门诊就诊的532例皮肤念珠菌病