一种基于XML的Web访问模式发现模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:firefly0808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW技术蓬勃发展,由于Web站点的规模和复杂度的增加,网站的一些主要工作,如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用户与网站的会话过程产生的大量多种多样的信息中挖掘出对企业和网站设计人员有用的知识。将传统的数据挖掘技术应用于商务站点数据处理工作,并提供一种高效的Web挖掘解决方案,是当今国际数据挖掘领域关注的热门课题。当今得到广泛应用的是传统的Web访问挖掘技术,如基于Web访问日志的挖掘技术。Web访问日志主要记录了用户登录网站期间的浏览路径,作为挖掘用户访问模式的数据源,数据信息量不够,且准确度不高。因此,为了将数据挖掘技术更好地服务于以电子商务为代表的Web应用领域,在研究基于Web日志的挖掘技术的基础上,一种基于XML的Web访问模式发现模型被提出,试图为提高Web挖掘效率和质量提供一种新思路。新的模式发现处理模型结合了XML技术的可扩展性和层次性,以及Web站点信息的构成特性,以此达到高效、主动、智能地采集各方面数据,使来自客户端、服务器端日志以及数据库的三方数据达到动态融合,并为挖掘工作提供丰富而又真实可信的数据源;在下一步的挖掘工作中,模型采用XML相关技术:采用定义了会话格式的XML文档记录数据,会话和用户识别工作简单而又准确;异构数据采用XML格式存储,易于在不同数据库之间传输;在应用程序中既可以生成单维,也可以生成多维数据集;模式挖掘环节中对传统的模式挖掘算法,例如FP-tree算法进行优化,整个Web挖掘的准确度和效率都将得到提高。基于XML的Web访问模式发现需要实现数据采集、数据预处理和模式挖掘等功能。数据采集模块在.NET平台下设计实现,生成的XML文档利用XML相关技术进行数据抽取,模式挖掘利用单维数据集,采用改进后的FP算法实现。
其他文献
文本摘要、分类、聚类和检索是文本处理领域中的重要技术。本文结合若干具体科研项目,在上述几个方面进行了研究和探索。在文本摘要技术方面,本文实现了一个简单的文本摘要工具
互联网知识学习较传统学习具有任务明确,学习过程中学习者知识与能力同步增长的特点,但同时面临着海量知识资源与个体学习需求难以匹配的重大挑战。推荐算法是解决该问题的有
镜头检测一直是数字视频处理领域的一个重要课题。镜头是组成视频的最基本的单元,镜头检测就意味着为视频的结构化表示提供基础,使更高层的语义视频处理成为可能。 本文首
随着现代无线通信技术和因特网的发展与进步,任何人在任何时间、地点都能够获取信息并与他人通信,已经成为人们对现代信息网络的切实要求。Ad Hoc网络由于其无需固定有线基础
伴随着手机用户的增加和手机性能的提高,手机游戏目前在国内外都取得了巨大的成功,目前正向着网络化、3D化、大型化的方向发展。BREW是美国高通公司推出的无线开发平台,是一种新
由于水下环境条件有限,在水声传感器网络(UASN)中提出有效的和可扩展的路由协议有着许多的挑战。UASN中的通信是通过声音完成的,呈现为低速、高误码率、带宽小、传输高延迟等
随着互联网技术的飞速发展,网上的资源呈指数增长,人工处理这些海量信息代价非常高昂,因此如何高效地组织和管理这些资源成为近些年来的研究热点。一种自动组织和管理知识的
医学图像在疾病诊断和治疗中的作用日益重要,因此计算医学图像解剖组织精确的几何模型就成为一个富有挑战性的问题。处理这种问题的一种比较有前途的方法是使用活动轮廓模型
科技资源优化配置是科技管理和科技政策优先关注的核心问题之一,是资源配置的重要方面,是科技创新体系建设的基础。科技资源具有稀缺性与长效性特征,决定了世界各国将科技资源优
随着下一代互连网IPv6的快速发展,其路由协议(比如:OSPFv3路由协议)越来越受到路由设备与软件开发商的重视,很快从实验室走向产品化。进行此类协议的一致性测试对于实现这些协议