论文部分内容阅读
1、 引言
近年来,Internet尤其是WWW飞速发展,其信息量正以指数级速度迅猛增长和扩展。这使得广大用户更有可能享受丰富、方便的资源,然而传统服务模式的落后却使用户为信息所累,传统的Internet服务模式存在着一系列问题,比如:资源分散,检索集中,对所有用户是一副面孔,有求则应,无求不动;用户按格式请求,系统按字面匹配,查询方式局限、死板;没有统一的标准,门户林立,各自为政,不同信息源使用不同服务机制,不同服务使用不同身份认证机制等。解 决 这些 问题的关键在于将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。新一代的信息服务将是个性化主动信息服务,如何从海量的数据和信息中高效地获取有用知识,如何从迅速膨胀的信息中及时地获取最新信息,如何提高信息检索与推送的智能水平,以及如何满足各种用户不同的个性化需求等,都是新的信息服务系统面临的挑战性课题。个 性化 服 务是Internet信息增长的必然结果。传统的“人找信息”的服务模式己经越来越难以适应迅速增长的Internet信息资源,用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式。个性化主动信息服务是未来信息服务的主流模式,它实现的是“信息找人,按需服务”。个性化服务的形式是多种多样的,既可以是向用户推荐页面或新闻的个性化推荐服务,也可以是在用户检索信息的过程中提供个性化检索结果的个性化检索服务,还可以是减少用户浏览负担、调整网站显示的个性化网站等。但所有这些不同形式的个性化服务都首先需要建立对用户的描述,然后才能针对不同的用户提供不同的个性化服务。一个好第1章引言基于用户兴趣挖掘的个性化模型研究与设计的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。为用 户 建 立模型的目的就在于通过对用户信息需求、兴趣爱好和访问历史的收集、统计、分析,建立一个反映用户基本兴趣和信息需求的信息模型,并将模型用于帮助用户更好地获取新的信息。作 为个 性 化服务的基础和核心,用户模型的质量直接关系到个性化服务的质量。只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”的时候,才可能实现理想的个性化服务。利用用户信息构建用户模型,即用户建模,也就成为了个性化服务的核心和关键技术。只有在高质量的用户建模的基础上,才能实现个性化服务系统所追求的各种目标。所以,有必要将建模技术从具体的个性化服务形式中脱离出来作为一项基础技术研究,它能促进个性化服务的发展,提高个性化服务系统的易用性。
2、用户兴趣挖掘技术
回归分析是进行相关分析的一种重要方法,在研究某种对象之间存在着某种相互依存关系,可以借助回归分析法寻求其定量规律及其数学表达式
回归分析的中心问题,是在分析研究对象变化的基础上建立函数模型,通过统计计算和检验,归纳分析结果,用于对多方面问题的求解。关键是找出反映用户规律的回归图像和回归方程并验证其可靠性。 回归分析用于用户分析的大致步骤如下:
(1) 根据研究目标进行用户特征统计测量,获取一系列特征数据;
(2) 对统计量进行分析,用户某一函数进行拟合;
(3) 分析拟合函数,通过计算得出总体特征的回归方程;
(4) 用户相关洗漱法检验关西的显著性,确定回归方程的可靠性;
(5) 提交研究结果。
在用户研究中,常常需要研究某些事件之间的相互关系,这就是所谓的相关分析。
相关分析分为函数分析和统计分析,Web用户浏览网页时所表现出来的信息行为和用户对某个网页是否感兴趣密切相关。我们研究的相关因素之间存在某种函数关系,可以利用统计学中的回归分析方法解决[1]我们计算一个用户各种浏览行为的行为参数,就是要根据用户的多项浏览数据来得到的,因此,若能判断出所有提取出的浏览行为与网页兴趣度直接按呈线性关系,对于此问题,多元线性回归不失为一种好的方法。
回归分析的中心问题,是在分析研究对象的变化趋势的基础上建立函数模型,通过统计计算和检验,归纳分析结果,因而在用户研究中用户对多方面的问题的求解。该方法的关键是找出反映用户规律的回归图像和回归方程,并检验其可靠性。
3、用户兴趣来源
从静态上分布上看可以分为突出兴趣和次要兴趣;从动态演化上看可以分为稳定兴趣和偶然兴趣。特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一
特征选择有两大步骤:计算评价函数值和特征子集搜寻。
评价函数功能就是评价出特征向量与数据类信息的匹配程度。
一组具有相似稳定用户兴趣的人访问的文档有可能相关,由于人们的兴趣是稳定的,所以页面p被用户U访问这一动作的发生在相当大程度上是由用户u的的稳定兴趣所驱动的,而不是用户u的一次随机访问或者偶然兴趣所驱动的,也就说说这种访问时有规律的,我们利用用户访问频率矩阵进行了相关文档检索,用户访问频率矩阵我们成为用户兴趣矩阵。
4、系统设计与实现
4.1、设计方案
搜索引擎日志挖掘研究可以看作Web挖掘中的一种使用记录挖掘( Web usage mining), 即从用户查询行为中抽取有意义的模式。具体地,研究用户如何使用Web搜索引擎?用户在Web上查找什么样的信息? 整体或单个用户的查询具有什么样的特征与规律?如何利用这些用户的访问信息改进搜索引擎系统的性能?系统设计总体图如下所示。
因地域、文化背景、语言的不同,用户群的查询行为方式以及查询内容上可能有所不同。
1、 数据分析基本工作原理。
4.2、实验内容
经过统计分析: 1)用户的突出兴趣类个数变化平缓,且趋于稳定。
2)突出兴趣类的变化也不大,一般集中在某几个类别中,且趋于稳定。
这说明随着时间的变化,单个用户的突出兴趣类变化较小,且当时间达到一定长度后,单个用户的突出兴趣类会稳定在几个类别中。
NK描述用户的兴趣集中程度。
用户的访问动机的确有稳定和偶然之分。
用户突出兴趣和稳定兴趣分析得出结论:一定时间段的网络日志中蕴含了用户的稳定兴趣。另外有这样的假设:一组具有相似稳定兴趣的人访问的文档有可能相关。
用户访问频率矩阵进行了相关文档检索,其中用户访问频率矩阵称为用户兴趣矩阵。
模型的输入:文档a
模型的输出:与文档a相关的文档集B,B中文档按照与a的相关度由高到低排列。
简要流程:
1、找出对文档a感兴趣的用户群V;
2、对V做用户兴趣聚类,并在聚类结果中找出具有如下特征的用户类;
2.1、具有相似兴趣背景;
2.2、相对其他用户类而言,U中用户对a最感兴趣;
3、找出U中每个用户感兴趣的文档集,求并集得到相关文档候选集P;
4、对候选集P进行一定的过滤处理及相关判定,得到相关文档集B。
所以得出结论:模型的检索性能主要依赖于日志中涉及的用户数和文档数,其中检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数。
如果仅是对大规模搜索引擎用户查询行为的一般特征进行研究,那么选取一天的日志数据就够了,这是因为用户的查询过程具有自相似的特征;所谓自相似性,直观上说就是一组序列在很长的时间范围内表现出结构上的相似性;长期依赖性是它的一个主要特性也显示了整体用户对系统的访问具有极强的规律性。[2]
1、用户访问的时间、用户的IP地址、输入的查询、用户所点击的URL、点击的时间以及点击URL的序号
2、用户查询,重复查询的情况;用户提交查询的时间间隔等
3、查询的长度,即用户输入的查询串中所包含的词项个数;查询的复杂性,即用户使用布尔操作(AND,OR,NOT)或短语查询的情况;查询串的共现情况,即两个语义相关的词项出现在同一个查询串中。
4、对用户输入的查询请求,统计用户查看的结果页面个数(如翻页等),以及查看结果页面的时间间隔。
5、考察在一次会话或一次查询中,用户所点击结果页面中URL的个数、序号以及相关性等。
6、单个用户查询主题的迁移情况。
我们对用户查看结果页面的数量进行统计表明:约有一半(54.24%)的用户只查看了第一个结果页面,21%查询了前两页结果,10%的用户查看了前三个结果页面,只有不到 0.42%的用户查看了10个以上的结果页面。用户查看的结果页面的个数越来越少,这表明用点击URL具有局部性,用户点击局部性启发我们搜索引擎系统尽可能将相关的结果放到结果的前几页显示给用户,保证排在前几页的查询结果都是高质量的查询结果,要求搜索引擎排序机制优化。
查询分类及其查询主题的演化
对某个搜索引擎而言,考察整体用户群所进行查询的类别(可以人工定义),以及这些查询主题随时间变化的特征。关键词和类别关系(统计如下)
搜狗共计16大类:
娱乐休闲、电脑网络、卫生健康、工商经济、教育培训、生活服务、公司企业、艺术
社会文化、文学、新闻媒体、政法军事、体育健康、科学技术、社会科学、国际地区
2007年3月
4.3实验结论
通过关键字查询的内容识别内容分类,从而确定关键字属于哪个分类,条件是这个关键字积累定向到某个分类次数必须达到某个数值;同样,用户用某个关键字找到的内容,根据关键字所在分类,确定内容的分类,条件是根据这个关键字找到这个内容的次数要达到某个数值。 通过查询发现,查询类别较高的前三类为:文学、娱乐休闲、电脑网络,可以推测用兴趣偏好为这三类别。反映了一种用户群特征,用户绝大部分喜好这类信息。
参考文献
【1】《王新成,《数理统计》,西北工业大学出版社,2002年8月》
【2】大规模中午搜索引擎的用户日志分析 王继民 陈 彭波 北京大学信息科学技术学院 华南理工大学学报
近年来,Internet尤其是WWW飞速发展,其信息量正以指数级速度迅猛增长和扩展。这使得广大用户更有可能享受丰富、方便的资源,然而传统服务模式的落后却使用户为信息所累,传统的Internet服务模式存在着一系列问题,比如:资源分散,检索集中,对所有用户是一副面孔,有求则应,无求不动;用户按格式请求,系统按字面匹配,查询方式局限、死板;没有统一的标准,门户林立,各自为政,不同信息源使用不同服务机制,不同服务使用不同身份认证机制等。解 决 这些 问题的关键在于将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。新一代的信息服务将是个性化主动信息服务,如何从海量的数据和信息中高效地获取有用知识,如何从迅速膨胀的信息中及时地获取最新信息,如何提高信息检索与推送的智能水平,以及如何满足各种用户不同的个性化需求等,都是新的信息服务系统面临的挑战性课题。个 性化 服 务是Internet信息增长的必然结果。传统的“人找信息”的服务模式己经越来越难以适应迅速增长的Internet信息资源,用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式。个性化主动信息服务是未来信息服务的主流模式,它实现的是“信息找人,按需服务”。个性化服务的形式是多种多样的,既可以是向用户推荐页面或新闻的个性化推荐服务,也可以是在用户检索信息的过程中提供个性化检索结果的个性化检索服务,还可以是减少用户浏览负担、调整网站显示的个性化网站等。但所有这些不同形式的个性化服务都首先需要建立对用户的描述,然后才能针对不同的用户提供不同的个性化服务。一个好第1章引言基于用户兴趣挖掘的个性化模型研究与设计的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。为用 户 建 立模型的目的就在于通过对用户信息需求、兴趣爱好和访问历史的收集、统计、分析,建立一个反映用户基本兴趣和信息需求的信息模型,并将模型用于帮助用户更好地获取新的信息。作 为个 性 化服务的基础和核心,用户模型的质量直接关系到个性化服务的质量。只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”的时候,才可能实现理想的个性化服务。利用用户信息构建用户模型,即用户建模,也就成为了个性化服务的核心和关键技术。只有在高质量的用户建模的基础上,才能实现个性化服务系统所追求的各种目标。所以,有必要将建模技术从具体的个性化服务形式中脱离出来作为一项基础技术研究,它能促进个性化服务的发展,提高个性化服务系统的易用性。
2、用户兴趣挖掘技术
回归分析是进行相关分析的一种重要方法,在研究某种对象之间存在着某种相互依存关系,可以借助回归分析法寻求其定量规律及其数学表达式
回归分析的中心问题,是在分析研究对象变化的基础上建立函数模型,通过统计计算和检验,归纳分析结果,用于对多方面问题的求解。关键是找出反映用户规律的回归图像和回归方程并验证其可靠性。 回归分析用于用户分析的大致步骤如下:
(1) 根据研究目标进行用户特征统计测量,获取一系列特征数据;
(2) 对统计量进行分析,用户某一函数进行拟合;
(3) 分析拟合函数,通过计算得出总体特征的回归方程;
(4) 用户相关洗漱法检验关西的显著性,确定回归方程的可靠性;
(5) 提交研究结果。
在用户研究中,常常需要研究某些事件之间的相互关系,这就是所谓的相关分析。
相关分析分为函数分析和统计分析,Web用户浏览网页时所表现出来的信息行为和用户对某个网页是否感兴趣密切相关。我们研究的相关因素之间存在某种函数关系,可以利用统计学中的回归分析方法解决[1]我们计算一个用户各种浏览行为的行为参数,就是要根据用户的多项浏览数据来得到的,因此,若能判断出所有提取出的浏览行为与网页兴趣度直接按呈线性关系,对于此问题,多元线性回归不失为一种好的方法。
回归分析的中心问题,是在分析研究对象的变化趋势的基础上建立函数模型,通过统计计算和检验,归纳分析结果,因而在用户研究中用户对多方面的问题的求解。该方法的关键是找出反映用户规律的回归图像和回归方程,并检验其可靠性。
3、用户兴趣来源
从静态上分布上看可以分为突出兴趣和次要兴趣;从动态演化上看可以分为稳定兴趣和偶然兴趣。特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一
特征选择有两大步骤:计算评价函数值和特征子集搜寻。
评价函数功能就是评价出特征向量与数据类信息的匹配程度。
一组具有相似稳定用户兴趣的人访问的文档有可能相关,由于人们的兴趣是稳定的,所以页面p被用户U访问这一动作的发生在相当大程度上是由用户u的的稳定兴趣所驱动的,而不是用户u的一次随机访问或者偶然兴趣所驱动的,也就说说这种访问时有规律的,我们利用用户访问频率矩阵进行了相关文档检索,用户访问频率矩阵我们成为用户兴趣矩阵。
4、系统设计与实现
4.1、设计方案
搜索引擎日志挖掘研究可以看作Web挖掘中的一种使用记录挖掘( Web usage mining), 即从用户查询行为中抽取有意义的模式。具体地,研究用户如何使用Web搜索引擎?用户在Web上查找什么样的信息? 整体或单个用户的查询具有什么样的特征与规律?如何利用这些用户的访问信息改进搜索引擎系统的性能?系统设计总体图如下所示。
因地域、文化背景、语言的不同,用户群的查询行为方式以及查询内容上可能有所不同。
1、 数据分析基本工作原理。
4.2、实验内容
经过统计分析: 1)用户的突出兴趣类个数变化平缓,且趋于稳定。
2)突出兴趣类的变化也不大,一般集中在某几个类别中,且趋于稳定。
这说明随着时间的变化,单个用户的突出兴趣类变化较小,且当时间达到一定长度后,单个用户的突出兴趣类会稳定在几个类别中。
NK描述用户的兴趣集中程度。
用户的访问动机的确有稳定和偶然之分。
用户突出兴趣和稳定兴趣分析得出结论:一定时间段的网络日志中蕴含了用户的稳定兴趣。另外有这样的假设:一组具有相似稳定兴趣的人访问的文档有可能相关。
用户访问频率矩阵进行了相关文档检索,其中用户访问频率矩阵称为用户兴趣矩阵。
模型的输入:文档a
模型的输出:与文档a相关的文档集B,B中文档按照与a的相关度由高到低排列。
简要流程:
1、找出对文档a感兴趣的用户群V;
2、对V做用户兴趣聚类,并在聚类结果中找出具有如下特征的用户类;
2.1、具有相似兴趣背景;
2.2、相对其他用户类而言,U中用户对a最感兴趣;
3、找出U中每个用户感兴趣的文档集,求并集得到相关文档候选集P;
4、对候选集P进行一定的过滤处理及相关判定,得到相关文档集B。
所以得出结论:模型的检索性能主要依赖于日志中涉及的用户数和文档数,其中检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数。
如果仅是对大规模搜索引擎用户查询行为的一般特征进行研究,那么选取一天的日志数据就够了,这是因为用户的查询过程具有自相似的特征;所谓自相似性,直观上说就是一组序列在很长的时间范围内表现出结构上的相似性;长期依赖性是它的一个主要特性也显示了整体用户对系统的访问具有极强的规律性。[2]
1、用户访问的时间、用户的IP地址、输入的查询、用户所点击的URL、点击的时间以及点击URL的序号
2、用户查询,重复查询的情况;用户提交查询的时间间隔等
3、查询的长度,即用户输入的查询串中所包含的词项个数;查询的复杂性,即用户使用布尔操作(AND,OR,NOT)或短语查询的情况;查询串的共现情况,即两个语义相关的词项出现在同一个查询串中。
4、对用户输入的查询请求,统计用户查看的结果页面个数(如翻页等),以及查看结果页面的时间间隔。
5、考察在一次会话或一次查询中,用户所点击结果页面中URL的个数、序号以及相关性等。
6、单个用户查询主题的迁移情况。
我们对用户查看结果页面的数量进行统计表明:约有一半(54.24%)的用户只查看了第一个结果页面,21%查询了前两页结果,10%的用户查看了前三个结果页面,只有不到 0.42%的用户查看了10个以上的结果页面。用户查看的结果页面的个数越来越少,这表明用点击URL具有局部性,用户点击局部性启发我们搜索引擎系统尽可能将相关的结果放到结果的前几页显示给用户,保证排在前几页的查询结果都是高质量的查询结果,要求搜索引擎排序机制优化。
查询分类及其查询主题的演化
对某个搜索引擎而言,考察整体用户群所进行查询的类别(可以人工定义),以及这些查询主题随时间变化的特征。关键词和类别关系(统计如下)
搜狗共计16大类:
娱乐休闲、电脑网络、卫生健康、工商经济、教育培训、生活服务、公司企业、艺术
社会文化、文学、新闻媒体、政法军事、体育健康、科学技术、社会科学、国际地区
2007年3月
4.3实验结论
通过关键字查询的内容识别内容分类,从而确定关键字属于哪个分类,条件是这个关键字积累定向到某个分类次数必须达到某个数值;同样,用户用某个关键字找到的内容,根据关键字所在分类,确定内容的分类,条件是根据这个关键字找到这个内容的次数要达到某个数值。 通过查询发现,查询类别较高的前三类为:文学、娱乐休闲、电脑网络,可以推测用兴趣偏好为这三类别。反映了一种用户群特征,用户绝大部分喜好这类信息。
参考文献
【1】《王新成,《数理统计》,西北工业大学出版社,2002年8月》
【2】大规模中午搜索引擎的用户日志分析 王继民 陈 彭波 北京大学信息科学技术学院 华南理工大学学报