论文部分内容阅读
[摘要] 随着互联网内容指数级的增长,以及数据挖掘等新技术的出现,信息服务方式从传统的“一对多”发展到“一对一”的个性化用户服务方式。而利用web挖掘技术已经成为个性化服务的一个研究热点。
[关键词] web挖掘 个性化服务 用户建模 聚类
一、引言
web目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新闻、广告、消息信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。但如何满足各种用户不同的个性化需求,却成为了新的信息服务系统面临的挑战性课题。
二、web挖掘技术
1.web内容挖掘。web内容挖掘是从web文档的内容或其描述中提取知识的过程,目的是实现web资源的自动检索,提供web资源的利用率。基于web文档的文本挖掘是web内容挖掘的主要研究内容。在文本挖掘中,通常利用向量来表示文档。文本挖掘中主要有文本分析、文本解释、文本分类和文档可视化等挖掘技术。文本挖掘目前主要用于web页面归纳和搜索结果归纳。
2.web结构挖掘。web结构挖掘可以被视为一种替网络之间网页的链接组织构架建立一个模式,透过这个模式可以了解到网页与网页之间的关联性,因而可用来提升网站浏览或搜索的效率。web结构挖掘技术通常将网站链接结构对应成有向图或无向图的形式,分析链接的各条路径结构,整合网站路径资源。此外,还可以结合网站使用者的浏览动态,发现重要页面,从而改进网站的链接结构及内容呈现的方式,如将重要页面放在网站醒目的位置,简化浏览路径等。从而,提高网站架构的合理性。
3.web日志挖掘。web日志挖掘是通过分析web服务器的日志文件,已发现用户访问站点的浏览模式,为站点管理员提供各种利于web站点改进或可以带来经济效益的信息,web日志挖掘的过程一般分为4部分:数据预处理、挖掘算法实施、模式分析、可视化。如图1所示。
三、利用web挖掘进行个性化服务
个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
1.用户建模。个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务,因此用户建模是个性化服务的基础和核心。简单地说,用户建模是指根据访问者对一个web站点上web页面的访问情况模型化用户的自身特性。用户建模主要有三种途径:一是推断匿名访问者的人口统计特性。由于web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。这类挖掘的最常用技术是分类和聚类方法。二是在不打扰用户的情况下,得到用户概貌文件。三是根据用户的访问模式来聚类用户。
2.个性化服务系统。基于web挖掘的个性化服务系统的出现是对传统的个性化服务系统的挑战,也是个性化服务发展的必然结果。基于web挖掘的个性化服务系统主要应用web挖掘中的内容挖掘、结构挖掘和日志挖掘,并根据挖掘所获取的有趣的信息来为用户提供个性化服务。
基于web挖掘的个性化服务系统一般由离线和在线两部分组成,图2给出通用的web个性化服务系统的服务过程。
离线部分主要用于挖掘用户的特性信息,可以被看作个性化服务的准备部分,由两个阶段组成:第一个阶段是对原始数据和相关数据进行预处理。高质量的决策必然依赖于高质量的数据,因此数据预处理是web挖掘的重要步骤。数据预处理技术包括数据清理、会话识别、浏览页识别、事务识别、路径完善和用户识别。第二个阶段是模式提取阶段,即使用数据挖掘技术对处理过的数据进行挖掘,进行模式获取,以便以后在线部分的实时推荐。
在线部分为推荐引擎,主要是为用户提供推荐从而实现个性化服务。推荐引擎的任务是计算出当前会话的推荐集,根据当前的用户会话和挖掘结果,应用推荐机制产生实时的推荐集。
3.实现方法。
(1)离线聚类和动态链接结合。将用户访问模式进行聚类,系统将离线的模块用于聚类,在线的模块用于web页面的动态链接产生。每个访问站点的用户根据其当前的访问模式被指定到一个聚类中,在该聚类中其他用户所选择的页面被动态地附加在该用户当前所访问的页面下面,由此提供个性化的服务。
(2)识别感兴趣的链接。监测用户对web页面的浏览,为用户识别出那些用户可能感兴趣的链接。利用互信息和MDL等作为相似性比较的手段,根据当前用户的访问和其他具有相似性兴趣的用户的访问就可以来评估一个新页面的兴趣程度。
(3)自动定制不同的用户访问界面。利用用户建模技术自动定制不同的用户访问界面,是个性化的一个重要方面。
(4)聚类推荐。根据服务器日志聚类用户页面,把和当前用户事务最相近的聚类中的页面推荐给用户。
参考文献:
[1]毛国君段丽娟:《数据挖掘原理与算法》,清华大学出版社
[2]苏新宁杨建林:《数据残酷和数据挖掘》,清华大学出版社
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
[关键词] web挖掘 个性化服务 用户建模 聚类
一、引言
web目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新闻、广告、消息信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。但如何满足各种用户不同的个性化需求,却成为了新的信息服务系统面临的挑战性课题。
二、web挖掘技术
1.web内容挖掘。web内容挖掘是从web文档的内容或其描述中提取知识的过程,目的是实现web资源的自动检索,提供web资源的利用率。基于web文档的文本挖掘是web内容挖掘的主要研究内容。在文本挖掘中,通常利用向量来表示文档。文本挖掘中主要有文本分析、文本解释、文本分类和文档可视化等挖掘技术。文本挖掘目前主要用于web页面归纳和搜索结果归纳。
2.web结构挖掘。web结构挖掘可以被视为一种替网络之间网页的链接组织构架建立一个模式,透过这个模式可以了解到网页与网页之间的关联性,因而可用来提升网站浏览或搜索的效率。web结构挖掘技术通常将网站链接结构对应成有向图或无向图的形式,分析链接的各条路径结构,整合网站路径资源。此外,还可以结合网站使用者的浏览动态,发现重要页面,从而改进网站的链接结构及内容呈现的方式,如将重要页面放在网站醒目的位置,简化浏览路径等。从而,提高网站架构的合理性。
3.web日志挖掘。web日志挖掘是通过分析web服务器的日志文件,已发现用户访问站点的浏览模式,为站点管理员提供各种利于web站点改进或可以带来经济效益的信息,web日志挖掘的过程一般分为4部分:数据预处理、挖掘算法实施、模式分析、可视化。如图1所示。
三、利用web挖掘进行个性化服务
个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
1.用户建模。个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务,因此用户建模是个性化服务的基础和核心。简单地说,用户建模是指根据访问者对一个web站点上web页面的访问情况模型化用户的自身特性。用户建模主要有三种途径:一是推断匿名访问者的人口统计特性。由于web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。这类挖掘的最常用技术是分类和聚类方法。二是在不打扰用户的情况下,得到用户概貌文件。三是根据用户的访问模式来聚类用户。
2.个性化服务系统。基于web挖掘的个性化服务系统的出现是对传统的个性化服务系统的挑战,也是个性化服务发展的必然结果。基于web挖掘的个性化服务系统主要应用web挖掘中的内容挖掘、结构挖掘和日志挖掘,并根据挖掘所获取的有趣的信息来为用户提供个性化服务。
基于web挖掘的个性化服务系统一般由离线和在线两部分组成,图2给出通用的web个性化服务系统的服务过程。
离线部分主要用于挖掘用户的特性信息,可以被看作个性化服务的准备部分,由两个阶段组成:第一个阶段是对原始数据和相关数据进行预处理。高质量的决策必然依赖于高质量的数据,因此数据预处理是web挖掘的重要步骤。数据预处理技术包括数据清理、会话识别、浏览页识别、事务识别、路径完善和用户识别。第二个阶段是模式提取阶段,即使用数据挖掘技术对处理过的数据进行挖掘,进行模式获取,以便以后在线部分的实时推荐。
在线部分为推荐引擎,主要是为用户提供推荐从而实现个性化服务。推荐引擎的任务是计算出当前会话的推荐集,根据当前的用户会话和挖掘结果,应用推荐机制产生实时的推荐集。
3.实现方法。
(1)离线聚类和动态链接结合。将用户访问模式进行聚类,系统将离线的模块用于聚类,在线的模块用于web页面的动态链接产生。每个访问站点的用户根据其当前的访问模式被指定到一个聚类中,在该聚类中其他用户所选择的页面被动态地附加在该用户当前所访问的页面下面,由此提供个性化的服务。
(2)识别感兴趣的链接。监测用户对web页面的浏览,为用户识别出那些用户可能感兴趣的链接。利用互信息和MDL等作为相似性比较的手段,根据当前用户的访问和其他具有相似性兴趣的用户的访问就可以来评估一个新页面的兴趣程度。
(3)自动定制不同的用户访问界面。利用用户建模技术自动定制不同的用户访问界面,是个性化的一个重要方面。
(4)聚类推荐。根据服务器日志聚类用户页面,把和当前用户事务最相近的聚类中的页面推荐给用户。
参考文献:
[1]毛国君段丽娟:《数据挖掘原理与算法》,清华大学出版社
[2]苏新宁杨建林:《数据残酷和数据挖掘》,清华大学出版社
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。