基于Apriori算法的Web日志挖掘研究

来源 :电脑迷 | 被引量 : 0次 | 上传用户:pazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,总结了用户的频繁访问路径,得到了比较理想的结果。
  关键词 Web日志挖掘研究 Apriori算法 访问路径
  中图分类号:TP393.07 文献标识码:A
  0 引言
  在Web数据挖掘中,Web日志挖掘是一个尤为重要的研究课题,通过Web日志挖掘,可以充分利用Web服务器上大量的日志文件,从中发现用户访问网站页面的模型和访问习惯,为电子商务网站管理员优化网站页面结构提供依据,从而为用户访问网站时提供便捷服务。
  1 Web日志数据分布
  Web日志挖掘的数据来源主要包括:Web日志、站点拓扑结构、站点文件、与站点服务相关的数据库数据以及其他一些信息等。目前,Web日志挖掘的主要数据来源是Web服务器日志,它完整且详细地记录了网站访问者的浏览行为。
  2 Web日志挖掘的处理过程
  它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
  Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。
  3 关联规则Apriori算法及改进
  4 Web日志挖掘系统设计及应用
  4.1 系统的设计思想
  结合前文讨论的Web日志挖掘关键技术、方法,应用改进的Apriori算法,开发一个Web访问日志挖掘的测试系统:
  (1)项:网站中的每个页面为一项;
  (2)事务:每个客户端IP地址,在会话持续时间的阈值(设置为30分钟)范围内访问的页面为一条事务;
  (3)事务数据库的定义:同一天所有客户端访问的页面的集合。
  根据客户端IP地址对会话识别过的页面进行处理,将IP地址和该IP地址对应的页面的集合作为一条事务,根据用户输入的最小支持度和最小可信度,构造频繁项集和产生规则并将所有的规则显示在表格中。
  4.2 开发环境的选择
  系统的开发语言采用微软公司推出的开发Win32应用程序的、面向对象的可视化集成工具Visual C++6.0。
  后台数据库使用微软公司推出的基于Windows的桌面关系数据库管理系统(RDBMS)的Access。
  4.3 Web服务器日志处理
  将Web日志挖掘系统应用于学院网络中心的“招生信息网”上,从访问日志中挖掘出用户的频繁访问路径。基于这一目的,结合实验条件和自身的技术水平,对日志文件数据的预处理主要做了如下工作:
  数据清理阶段:将日志文件导入数据库后,通过使用SQL把数据库中无关的数据消除,是数据库保持干净,有利于程序的运作。
  用户识别阶段:IP优先考虑,即IP不同代表不同的用户。
  会话识别阶段:同一IP地址(该IP可能是用户的,也可能是代理服务器的)在一个时间段内可能会不只一次访问网站,需要把同一IP地址用户的所有访问序列分割成多个单独的用户一次访问的序列,本文采用通用的会话持续时间阈值(=30分钟)的启发式会话识别方法。对日志数据进行预处理后,生成对应的日志数据库文件Weblog.mdb。
  4.4 Web日志挖掘
  结果分析:Web日志挖掘实验结果表明,访问招生网主页的有六成访问者访问留言版信息,有五成多的人员访问专业设置页面和招生信息,依次类推。
  参考文献
  [1] 孔昊,周长胜.Web日志挖掘预处理研究[J].北京机械工业学院学报,2005(04).
其他文献
目的 探讨重症手足口病(HFMD)急性期影像学表现.为手足口病的诊治提供依据,提醒临床及早发现重型病例,提高抢救成功率.降低死亡率.方法 搜集本院收治的50例重症手足口病病例的相关资料,回顾性分析和总结其影像学征象.结果 除发热、皮肤黏膜疹、呕吐、惊颤等临床症状外,其中18例胸部X线片检查示阴性,11例示胸部X线片两肺提示肺炎,20例胸部X线片支持支气管炎,1例胸部X线片两肺提示瘀血、水肿、出血.
目的 探讨血尿酸(UA)浓度与冠心病心力衰竭的关系.方法 运用尿酸酶-过氧化物酶耦联法测定冠心病和冠心病心力衰竭患者血清UA浓度,并将两组进行比较.结果 冠心病组中UA浓度>350 μmol/L 218例,>450 μmol/L 71例,>500 μmol/L 55例,发生率分别是36.31%、11.90%、9.52%.冠心病心力衰竭组中UA浓度> 350μmol/L 311例,>450 μmol
红皮病也称为剥脱性皮炎,是一种严重的皮肤疾病,1886年由Hebra首先描述.临床表现为皮肤弥漫性潮红、肿胀、浸润、脱屑,累计面积达到全身皮肤的90%,同时可以导致内脏损伤和代
目的:探讨治疗先天性阴道缺如的最佳手术方式.方法:2001年9月至2010年9月成都阳光妇科医院和深圳罗湖人民医院收治先天性无阴道患者342例(包括男性假两性畸形1例),均采用腹腔镜下腹膜阴道成形术治疗,其中,采用罗湖手术Ⅰ式196例,罗潮手术Ⅱ式146例.结果:平均手术时间42.5 min(40~65min),平均术中失血量<30ml平均住院时间16.5d(14~22d),342例手术全部成功,
目的对肝癌核心家系进行调查并对其进行分析。建立肝癌核心家系标本数据库,为肝癌遗传易感性的研究提供实验标本和研究资料。方法对经县级及以上医院确诊的肝癌先证者及其血
摘 要 传统蚁群算法在解决QoS路由问题时往往会在非线性整数规划模型的基础上盲目地搜索,其仿生智能没有与问题特征很好的结合,所得到的组播树有可能包含冗余的环路。为了研制性能更高的QoS组播路由方法,本文提出了一种新的基于蚁群优化算法的QoS组播路由新算法。新算法根据最大最小蚂蚁思想,结合蚂蚁-Q算法对原算法进行了改进,使得在实际应用中,算法选路更合理有效。  关键字 蚁群优化算法 QoS路由  中
目的观察盐酸异丙嗪联合纳络酮,血塞通治疗眩晕症的临床疗效观察。方法选取2010年4月至2011年4月到我院急诊内科住院治疗的眩晕症患者84例,随机选择42例为治疗组,另42例为对
摘 要 嵌入式Web服务器是指将Web服务器嵌入到现场测试和控制设备中,在相应的硬件平台和软件系统的支持下,使传统的测试和控制设备转变为具备了以TCP/IP为底层通信协议,Web技术为核心的基于互联网的网络测试和控制设备。  关键词 嵌入式Web 服务器 控制设备  中图分类号:TN915.08 文献标识码:A  1 主程序流程  在主程序流程中,主要设计实现包括两大部分:第一是对接收到的以太网数
摘 要 随着科学技术的不断进步与发展,编程技术在软件开发中发挥着越来越重要的作用,在原来的软件开发过程中,通常采用FORTRAN语言来进行软件所需的程序的编制,但是随着科学技术以及计算机技术的快速发展,VC++语言的适用范围不断扩大,在自身不断发展的同时也为软件开发奠定了坚实的技术基础。在综合运用多语言编程技术的基础上,也把软件开发推向了一个新的水准。当前对于多语言编程技术在软件开发中的应用进行探
摘 要 虚拟仪器技术就是利用高性能的模块化硬件,结合高效灵活的软件来完成各种测试、测量和自动化的应用。自1986年问世以来,世界各国的工程师和科学家们都已将NI LabVIEW图形化开发工具用于产品设计周期的各个环节,从而改善了产品质量、缩短了产品投放市场的时间,并提高了产品开发和生产效率。使用集成化的虚拟仪器环境与现实世界的信号相连,分析数据以获取实用信息,共享信息成果,有助于在较大范围内提高生