Web挖掘与个性化服务研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:qiaotongqiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 随着互联网内容指数级的增长,以及数据挖掘等新技术的出现,信息服务方式从传统的“一对多”发展到“一对一”的个性化用户服务方式。而利用web挖掘技术已经成为个性化服务的一个研究热点。
  [关键词] web挖掘 个性化服务 用户建模 聚类
  
  一、引言
  
  web目前是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及新闻、广告、消息信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。但如何满足各种用户不同的个性化需求,却成为了新的信息服务系统面临的挑战性课题。
  
  二、web挖掘技术
  
  1.web内容挖掘。web内容挖掘是从web文档的内容或其描述中提取知识的过程,目的是实现web资源的自动检索,提供web资源的利用率。基于web文档的文本挖掘是web内容挖掘的主要研究内容。在文本挖掘中,通常利用向量来表示文档。文本挖掘中主要有文本分析、文本解释、文本分类和文档可视化等挖掘技术。文本挖掘目前主要用于web页面归纳和搜索结果归纳。
  2.web结构挖掘。web结构挖掘可以被视为一种替网络之间网页的链接组织构架建立一个模式,透过这个模式可以了解到网页与网页之间的关联性,因而可用来提升网站浏览或搜索的效率。web结构挖掘技术通常将网站链接结构对应成有向图或无向图的形式,分析链接的各条路径结构,整合网站路径资源。此外,还可以结合网站使用者的浏览动态,发现重要页面,从而改进网站的链接结构及内容呈现的方式,如将重要页面放在网站醒目的位置,简化浏览路径等。从而,提高网站架构的合理性。
  3.web日志挖掘。web日志挖掘是通过分析web服务器的日志文件,已发现用户访问站点的浏览模式,为站点管理员提供各种利于web站点改进或可以带来经济效益的信息,web日志挖掘的过程一般分为4部分:数据预处理、挖掘算法实施、模式分析、可视化。如图1所示。
  
  三、利用web挖掘进行个性化服务
  
  个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。
  1.用户建模。个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述,然后才能据此提供针对不同用户的个性化服务,因此用户建模是个性化服务的基础和核心。简单地说,用户建模是指根据访问者对一个web站点上web页面的访问情况模型化用户的自身特性。用户建模主要有三种途径:一是推断匿名访问者的人口统计特性。由于web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。这类挖掘的最常用技术是分类和聚类方法。二是在不打扰用户的情况下,得到用户概貌文件。三是根据用户的访问模式来聚类用户。
  2.个性化服务系统。基于web挖掘的个性化服务系统的出现是对传统的个性化服务系统的挑战,也是个性化服务发展的必然结果。基于web挖掘的个性化服务系统主要应用web挖掘中的内容挖掘、结构挖掘和日志挖掘,并根据挖掘所获取的有趣的信息来为用户提供个性化服务。
  基于web挖掘的个性化服务系统一般由离线和在线两部分组成,图2给出通用的web个性化服务系统的服务过程。
  离线部分主要用于挖掘用户的特性信息,可以被看作个性化服务的准备部分,由两个阶段组成:第一个阶段是对原始数据和相关数据进行预处理。高质量的决策必然依赖于高质量的数据,因此数据预处理是web挖掘的重要步骤。数据预处理技术包括数据清理、会话识别、浏览页识别、事务识别、路径完善和用户识别。第二个阶段是模式提取阶段,即使用数据挖掘技术对处理过的数据进行挖掘,进行模式获取,以便以后在线部分的实时推荐。
  在线部分为推荐引擎,主要是为用户提供推荐从而实现个性化服务。推荐引擎的任务是计算出当前会话的推荐集,根据当前的用户会话和挖掘结果,应用推荐机制产生实时的推荐集。
  3.实现方法。
  (1)离线聚类和动态链接结合。将用户访问模式进行聚类,系统将离线的模块用于聚类,在线的模块用于web页面的动态链接产生。每个访问站点的用户根据其当前的访问模式被指定到一个聚类中,在该聚类中其他用户所选择的页面被动态地附加在该用户当前所访问的页面下面,由此提供个性化的服务。
  (2)识别感兴趣的链接。监测用户对web页面的浏览,为用户识别出那些用户可能感兴趣的链接。利用互信息和MDL等作为相似性比较的手段,根据当前用户的访问和其他具有相似性兴趣的用户的访问就可以来评估一个新页面的兴趣程度。
  (3)自动定制不同的用户访问界面。利用用户建模技术自动定制不同的用户访问界面,是个性化的一个重要方面。
  (4)聚类推荐。根据服务器日志聚类用户页面,把和当前用户事务最相近的聚类中的页面推荐给用户。
  
  参考文献:
  [1]毛国君段丽娟:《数据挖掘原理与算法》,清华大学出版社
  [2]苏新宁杨建林:《数据残酷和数据挖掘》,清华大学出版社
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
[摘要] 公钥基础设施(Public Key Infrastructure)是目前网络安全建设的基础与核心,是电子商务安全实施的基本保障,已充分应用到各种电子商务安全解决方案之中,因此,对PKI技术的研究和开发成为目前信息安全领域的热点。在分析了当前电子商务面临的威胁后,利用PKI理论给出了解决电子商务安全的合理方案。  [关键词] 公钥基础设施 电子商务 认证中心    一、引言  随着网络的不
期刊
[摘要] 企业文化作为现代社会的一个与很多人的生存状态密切相关的重要的文化现象,与马克思主义文化发展理论之间存在诸多联系。企业文化的形成和发展不仅符合马克思主义关于社会发展的一般原理,而且丰富了马克思主义的文化观。日益丰富和深化的企业文化理论体现了物质资料生产是人类社会存在与发展的前提的重要原理,体现了“人的本质在于人的社会性”的重要原理,体现了经济发展与社会进步相协调的重要原理。  [关键词]
期刊
[摘要] 改革开放以来山东省对外贸易迅速发展,贸易规模总量增长显著。与此同时伴随着FDI的大量流入。本文根据山东历年数据运用平稳性检验、协整检验、格兰杰检验和建立回归模型,研究FDI与山东省出口规模之间的因果关系,及内流FDI对山东省出口商品结构优化的影响,得出结论:内流FDI促进了山东省出口总规模的增加,同时优化了出口商品结构,增加了制造业产品的出口,减少了初级产品出口额。最后,总结了问题及提出
期刊
[摘要] 我国的人民币汇率机制改革经历了1994年和2005年两次汇率机制的重要改革,本文分析了两次汇率改革时的金融环境,通过两次金融机制改革成果的对比得出完善人民币汇率形成机制的措施。  [关键词] 汇率 汇率制度 改革    一、引言  随着国际全球化、一体化进程的加剧,各国之间的联系日益密切,一国汇率制度的选择不仅仅要考虑国内的各因素还要综合国际大环境的各因素,权衡得失最后决定选择何种汇率制
期刊
[摘要] 本文分析了山东省FDI的现状,通过建立多元线性回归模型对FDI在山东省区位选择影响因素进行实证分析,得出影响FDI区位选择的因素主要有公路交通运输状况,对外贸易依存度,当地的邮电通讯设施和反映市场容量的地区生产总值。最后对山东省下一步如何更好地引进和利用外资提出了一些建议。  [关键词] 外商直接投资(FDI) 区位选择 山东省    一、引言  外商直接投资,即FDI(Foreign
期刊
[摘要] 本文运用计算机控制系统及自动控制理论解决加热炉生产工艺,重点研究加热炉控制系统的硬件设计、控制特点、控制方案设计及控制算法实现,并在典型实验装置上给予实验模拟。  [关键词] 计算机控制系统 模糊控制硬件设计 控制特点 控制方案设计及控制算法    对于轧钢企业实现加热炉自动控制最主要的两个任务是:对温度的控制。加热的温度不易过高,因为温度太高容易使铁和氧气發生化学反应附在钢坯表面(称之
期刊
[摘要] 基于结构分解分析(SDA)方法,本文提出了分解万元GDP能耗变化中结构份额和效率份额的Laspeyres—Paasche指数均值分解法(L-P指数均值分解法)。通过实证研究得出该分解方法不仅能够消除分解残差的存在,而且解决了现有结构分解方法(SDA)中存在的双偏现象,能够很好地反映区域经济发展过程中单位经济产出能耗中的结构和效率份额。    一、L-P指数均值分解法的提出    结构分解
期刊
[摘要] 本文在现有文献的基础上,应用GM(1,1)模型给出一种新的非线性灰色模型——Gompertzlan模型及其解法。最后将该方法用于某公司的实际销售额预测中,通过例子可以看出,这种新的方法具有很高的精度。  [关键词] 销售额Gompertz曲线非线性灰色模型预测精度    一、引言    龚帕兹曲线是由英国统计学家和数学家B.Gompertz首先提出的一种数學模型。它是一条S形生长曲线,它
期刊
[摘要] 非屏蔽双绞线具有较强的抗共模干扰能力,在视频监控相对集中的场合用其传输视频信号具有成本低廉、施工方便的优势。视频信号必须由单端信号转换为差分信号才能用双绞线传送,在传输距离较短的场合可以采用无源转换方式,在传输距离较长的场合需要采用有源转换方式并进行高频补偿。  [关键词] 非屏蔽双绞线无源差分转换有源差分转换频率补偿  在现代化的大型商场中有比较复杂的安防系统,视频监控是其中一个重要的
期刊
[摘要] 著名的Kuznets U-curve阐述了经济发展水平和收入差距水平之间的联系。本文就世界范围内45个国家的经济发展数据为依据,通过计量经济学方法对Kuznets U-curve进行计量实证分析以验证其合理性,同时在模型中加入其他收入差距的影响因素得到补充修正模型。  [关键词] Kuznets倒U理论收入差距经济增长    一、Kuznets倒U理论综述    Kuznets倒U理论(
期刊