基于WEB使用挖掘的智能个性化系统研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:jners08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet的飞速发展,越来越多的研究机构、团体以及个人开始注意到网络,并通过它来发布信息、查找信息。尽管Internet上有海量的信息,人们还是常常感到不能够找到自己想要找的信息。于是,人们提出来将数据挖掘思想与智能个性化思想结合来建设网站的想法。智能个性化网站不但能够对用户和页面进行聚类操作,还能够为不同的用户提供相应的服务。换句话说,这种网站可以为用户提供个性化的服务。 由于Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的,获取的知识是不可靠的。然而,Web服务器的log日志有着完整的结构。所以,我们可以通过对Web日志文件的挖掘来实现智能个性化服务。 本文首先分析了网络的现状,并提出了问题所在。然后介绍了Web挖掘的描述及其意义,以及实现智能个性化预测服务所用到的理论基础。 接着,详细的描述了本系统的三个处理过程。 数据预处理阶段。数据预处理是数据挖掘过程中的第一步,它主要包括四部分的工作:数据收集、数据净化、数据转换、数据归约。 挖掘算法阶段。这部分工作是本文的一个重点。挖掘算法阶段使用优化的矩阵聚类算法——权值矩阵聚类算法对用户群体和页面进行聚类。与普通的矩阵聚类算法相比,权值矩阵聚类算法将网站访问频度作为参数考虑进来提出了一个新的概念——权值关联矩阵,这是本文的创新点之一,它的优点是能够更准确的反映网站的访问情况。 模式分析及应用阶段。本阶段将挖掘结果应用到预测用户的访问路径和新用户的归类上,这是本文的另一个重要工作。这里提出了一种新的路径预测算法——HCI算法。它的基本思想是:为当前浏览页面的每个链接计算出一个分值,分值最大的即为推荐链接。这是本文的另一个创新点。通过与传统路径预测算法的比较,HCI算法的优点是:描述用户的行为更准确,预测用户的浏览路径更简单方便,预测命中率较高。对于新的用户,当他们第一次浏览网站的时候,通过计算他们和其他用户的相似度对其进行归类。 通过对学校日志的实践证明,采用基于改进的矩阵聚类算法进行挖掘,并将挖掘结果用于个性化服务的思想是有效的、可行的。这种实践为以后将个性化服务用于电子商务网站铺平了道路。
其他文献
随着人们对计算性能需求的不断扩展和技术的快速发展,多核的发展日趋成熟并且已经开始在传统PC甚至嵌入式领域广泛应用。然而,随着芯片集成度的提高,功耗已经和性能、时钟频率、
本文分析GIS在功能和数据共享上存在的问题及不足和新型分布式Web服务技术,研究了当前的Web服务技术原理和特点,根据GIS发展的需求,探讨了Web服务技术在GIS数据和功能共享方
随着技术的发展与信息数字化的推进,大量的数据需要被永久存储,而且存储的容量也呈指数上升。在海量数据的时代,如何有效存储大规模数据,并且提供常用接口是一个研究的热点。结构
目前开放网格服务体系结构OGSA的突出思想是以“服务”为中心。OGSA描述的网格服务固定在能提供此服务的网格主机上,不具有移动性,由此带来了持续连接、带宽浪费、智能性不高
企业资源计划系统ERP(Enterprise Resource Planning)是制造企业信息化的有效手段,中国ERP推广应用所面临的问题之一是ERP软件缺乏适应性,特别是ERP车间生产计划系统的柔性问
合成孔径雷达(synthetic aperture radar, SAR)诞生于20世纪50年代,它具有全天候、全天时、多波段等成像特点,SAR图像较光学图像表现出其独特的优越性,星载、机载及无人机载合成
以手持设备、实时系统等为典型代表的嵌入式系统需要一个轻型、可灵活配置、非常友好的图形界面系统。 论文首先概述了嵌入式计算机系统及通用图形用户界面的发展情况,接着
伴随嵌入式技术的不断发展,嵌入式操作系统也在不断涌现。对于非实时领域,可以采用Linux和WinCe系统,对于实时领域,多采用VxWorks或开源的实时操作系统。目前开源实时内核的发展
近年来在以人体生物特征为验证依据的身份识别技术中,人脸识别因其具有直接、友好、方便、易于为用户接受等优点,成为其中较为热门的研究应用方向.同时人脸自动识别技术也极
随着社会的发展,尤其是进入21世纪,人们追求的已经不仅仅是物质生活的满足,而更多是精神生活的满足。信息技术的发展,带动了一大批新兴产业的发展。互联网的发展,极大地改变了人们