基于XML的Web数据挖掘

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:eric73384
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。面向Web的数据挖掘是一项复杂的技术,由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。 本文详细探讨了Web内容挖掘、结构挖掘和使用记录挖掘。针对Web数据挖掘遇到的异构数据库环境、半结构化的数据结构等难题和现有的Web内容挖掘系统存在的问题,设计了一个基于XML的Web内容数据挖掘系统框架模型。模型包括搜索引擎模块、XML隧道集成预处理模块和数据挖掘模块三大模块。讨论了系统框架的配置、模型设计特点及对现有的Web内容挖掘系统的改进,并对模型中的各模块进行了详细的探究。其中在搜索引擎模块包含的权威页面算法选取中,在分析了Page-rank算法缺陷的基础上,引进了一种新的高效的Page-rank修正算法的定义;在XML隧道集成预处理模块中用Java语言实现了非XML文档到XML文档的代码调试工作,在将XML文档存储到关系数据库中的技术中引进了一种新的基于DTD-ER方法的XML数据存储在关系数据库中的新的技术。 相对于目前的IDGS、WebCrawer、Vista和Personalized WebAgents等Web内容挖掘系统,本文所设计的框架模型更好的实现了用户交互,用户可以根据自己的需要设置挖掘参数,对挖掘出的结果进行用户评估,从而更好的实现用户个性化的Web挖掘;对搜索出的信息选用改进的Page-rank修正算法确定权威Web页面,以提高供挖掘页面的权威性和有效性。
其他文献
PLC技术、网络技术及数字设备的不断发展,促使工业控制从传统的模拟控制逐步走向数字控制,从分散控制走向集中控制,从人工操作发展成为计算机控制。计算机软硬件技术已经渗透到
车载监控终端集全球定位技术,移动通信技术和地理信息系统技术于一身,它不但是智能交通系统的重要组成部分还能实现许多安全防范功能。 本文通过对GPS卫星定位理论、卫星数
分布式关联规则挖掘研究是为解决分布式环境下的关联规则挖掘问题而出现的新课题,具有重要的理论和实际意义。概念格通过概念的内涵和外延之间的关系以及泛化和例化之间的关
随着信息技术的高速发展,综合了计算机技术、网络技术和通信技术的嵌入式技术己成为人类继PC和互联网之后最热门的技术。嵌入式技术的应用已经广泛渗透到我们的工作、生活中,特
近年来,可靠性正在成为体系结构研究领域越来越重要的研究点。现在已经有很多可靠性模型可以用来在体系结构层次上预测软件的可靠性,但是绝大部分工作都没有给出软件体系结构的
随着网络的发展和人们对通讯业务需求的不断增长,传真、文本、图像和语音视频等各种各样的新业务层出不穷,尤其是VOIP(Voice Over IP)业务的发展非常迅速。这些业务突出的特点
拼音输入法不仅具有易学易会的特点,而且拥有相当多的用户。目前市场上的拼音输入法一般是以词为单位进行输入的,具有拼音串可编辑和汉字串可编辑、混合输入、模糊输入、机器
随着互联网技术的迅速发展,许多工作被移植到互联网上,极大提高了工作效率,促进了生产和科研的进步。网上协同工作的目的就是利用互联网的优势条件,促进组织为了共同的目的进行高
随着人们对时态数据挖掘的深入,周期挖掘作为时态数据库中用于理解时态数据、预测未来趋势的一个非常有意义的特征,也越来越受到国内外学者的关注。因此,周期挖掘日益成为时
如今随着E-learning技术的应用和发展,个性化学习环境(PersonalLearning Environment)已经越来越多地引起了人们的重视。不同于以呈现固定教学内容模式为主的传统教学管理系统(Le