基于XML的WEB日志挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:sz398143634
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB日志挖掘的主要目标是从WEB的访问记录中抽取感兴趣的模式,通过分析这些挖掘结果可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。在WEB数据挖掘领域中WEB日志挖掘技术对于网站的结构优化和页面内容的重新组合都起到了重要作用。目前检索WEB的信息主要采用搜索引擎来完成,但是大多数搜索引擎都缺少主动性,没有考虑访问用户的兴趣偏好和访问者的不同,无法有效地解决信息迷失和信息过载的问题。而解决这个问题的途径之一就是将数据挖掘技术应用于WEB服务器日志的挖掘,通过日志挖掘,从用户在WEB网站上浏览行为的数据中获取用户的浏览模式。根据用户的行为模式,改进网站的设计和服务,开展个性化服务和构建智能WEB站点。本论文详述了在研究个性化信息推荐服务中必须要着重解决的以下几个方面的问题:WEB日志的预处理、WEB日志挖掘算法、个性化推荐方法。详细讨论了WEB日志挖掘预处理的各个步骤,并且给出了每一步的关键算法。WEB日志挖掘预处理过程主要包括:数据清理、用户识别、会话识别、路径补充和用户事务模式识别。本文分别以关联规则和聚类两种方式完成对用户的个性化服务,即为用户提供推荐页面集。本论文提出一种改进的关联规则Apriori算法,该算法为关联规则APriori算法的改进,通过引入分辨矩阵实现只需扫描一次数据库,避免不必要的多次扫描,从而提高Apriori算法的效率,减少了扫描事务数据库的次数,并提高项集的支持计数速度。最后,本文初步设计了一个具有独创性的日志预处理系统,以产生日志挖掘所需的数据。本文初步建立了一个用户访问模式挖掘系统,系统的建立有助于查询、分析访问者的操作、了解用户的访问信息。通过监测用户的访问行为,根据对用户的访问情况进行日志挖掘,并以图例方式描述挖掘后的数据,了解用户的喜好加以改进,以提供个性化服务。
其他文献
基于UDDI的服务注册与发现机制无法准确刻画服务能力且服务发现过程仅依赖关键字搜索,服务发现效果无法满足用户需求。语义Web服务基于传统Web服务,嵌入语义信息以准确描述Web
随着无线通信和无线定位技术的不断发展,人们对于室内导航与定位的需求日益增大。特别在医疗、精密仪器制造等较为复杂的环境中,经常需要移动终端、传感器等无线设备精确的定位
低密度校验(Low Density Parity Check, LDPC)码是一类逼近香农容量限的渐进好码,已成为当今信道编码领域的研究热点之一。由于其良好的距离特性,译码复杂度低等优点,LDPC码
随着当今社会信息爆炸式的增长,Internet作为信息传播的重要媒介,在过去几十年也迅速发展起来,随之而来的拥塞问题也是越来越严重。网络拥塞所付出的直接代价是网络系统整体
科学计算可视化是最近发展起来的新兴研究领域,其中体绘制方法是迅速发展起来的三维数据场可视化的重要技术手段,它被广泛的应用于地质,气象及医学影像等多个领域。传递函数
本文在研究了信息安全风险评估相关理论及电力信息网络安全特性的基础上,通过引入模糊综合评判法以及变精度粗糙集理论,设计了电力信息网络风险评估模型。采用层次分析法、模糊综合评判法对被评估系统面临的各种威胁进行发生概率和影响后果的量化计算;采用层次分析法、变精度粗糙集相结合的方式确定各评估指标的权重,解决评估模型中主观因素影响过重的缺点;通过变精度粗糙集模型中的β约简来简化评估数据,利用可信度、覆盖率及
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天时、全天候、高分辨率和穿透一些地物的特点,因而在军事方面及国民经济的地质和矿物资源勘探、地形测绘和制图学、农业
现代通信技术对无线通信的要求越来越高。基于此,轻量化、小型化、共面、低剖面的天线需求日益增加,微带天线正是由于具备上述特点其应用越来越广泛,但与此同时人们对其性能
湖南是一个水旱灾害多发的省份,为了减轻灾害损失,在大力进行防洪工程设施建设的同时,必须加强防洪非工程措施的建设和各类水利信息化系统的建设。由于湖南省现有各类水利工
随着互联网的飞速发展和用户单机处理能力的不断增强,P2P流媒体不仅彻底革新了人们对传统媒体的观念,还深刻改变了人们生活、工作和娱乐方式。于此同时,P2P流媒体也成为计算