基于Web使用挖掘的知识发现研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qwer5458269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般而言,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文在概述Web使用挖掘的基础上,详细阐述了Web使用挖掘的整个过程和发现用户频繁访问模式的挖掘算法。本文所做的主要工作和新见解如下: ● 详细论述了Web挖掘的定义、分类、特点和Web挖掘所面临的挑战。 ● 阐述了Web使用挖掘的定义、数据来源、应用、研究方向以及相关技术;其中详细论述了基于事务的Web使用挖掘过程,在数据预处理阶段的事务识别步骤,介绍了一种经典的事务识别算法——最大前向引用(MF)算法。 ● 第四章中提出了三个发现用户频繁访问模式的改进算法。首先分析了Web使用挖掘中的类Apriori算法;然后在此基础上,提出了RD_Apriori改进算法;接着对数据挖掘中挖掘频繁项集的Close算法进行改进,提出了Web使用挖掘中的Close算法;最后结合RD_Apriori算法和Close算法,又提出一个RD_Close算法。通过理论分析和实验验证,它们都能根据不同的支持度阈值有效地发现用户的频繁访问模式。 ● 设计开发了Web使用挖掘原型系统(Web Usage Mining Prototype System)。此系统主要包含四个功能模块:数据清洗模块、会话构造模块、MF事务识别模块和访问模式挖掘模块,这些模块完成了原始日志数据的预处理工作,并且实现了第四章中阐述的四个挖掘算法:类Apriori算法,RD_Apriori算法,Close算法和RD_Apriori算法,Close算法和RD_Close算法。最后用真实数据对这些算法的性能进行了验证和分析。
其他文献
桑叶为桑属植物桑树(Morus alba L.)的叶子,我国大部分等地均有栽培,其味苦、甘、性寒、归肺、肝经,历代中医文献对其功能多有记载,认为其具有疏散风热、清肺润燥、平肝明目、凉
实现经济法治就必须规范政府,其中最重要的就是要使之从过度干预转向适度干预。大多数经济法学家认为宏观调控法是授权法和控权法的统一,宏观调控法对宏观调控关系的调整,重点在
本文以中国传统漆艺和现代家具设计为切入点,提出以“实用和艺术、文化的统一”为目的,以融合时代文化、引入现代设计为发展途径的思路。结合现代产品的系统开发理论和流程,
管网优化设计可以有效降低滴灌系统的整体投资,对推动滴灌大面积应用具有举足轻重的作用。目前用于管网优化设计的方法种类繁多,各种方法都有其适应范围,未能形成一种具有普适性
本文以森林与人类生存与发展,效益与保护为主题,以森林与人类社会可持续性发展为终极目标,以林学、森林学、生态学、经济学、管理学理论为指导,从理论与实践结合上,系统研究了现代
高血压是环境因素和遗传因素相互作用所引起的多基因疾病。血管活性肽及其受体、生长因子和细胞因子及其受体、细胞信号转导蛋白、细胞周期调控蛋白等都与高血压的发生有关,这
信息化是当今世界经济与社会发展的大趋势和新经济的必然产物,信息化水平已经成为衡量一个国家和地区的国际竞争力、现代化程度和经济增长能力的重要标志。湖北省根据“信息
本课题是企业根据市场需求委托的系统研发项目,委托单位要求系统在降低成本的前提下,达到国内外同类产品的技术要求。考虑到上述产品要求,利用机械、电子、光学、液体的综合
加强森林资源管理,从源头上预防和减少林业行政案件的发生,对于保护我国的森林资源,巩固林业发展的成果,为社会各界创造更加安全、有利的林业投资环境、保障林业经营者的合法
利用 1986 年 8 月 2 日、1992 年 7 月 17 日(2 景)和 1994 年 7 月 30 日(1 景)及2000 年 8 月 9 日 TM 遥感影像,在地理信息系统技术的支持下,分析了陕北农牧交错带近 15 年来土地利用/覆盖及荒漠化的动态变化过程