Web数据挖掘在自适应网站中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:ksh0323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅猛发展,web网站提供的信息越来越丰富,其拓扑结构越来越复杂。在web网站提供的信息服务中普遍存在着“信息过载”和“资源迷向”的状况。从用户的角度,不同的用户有不同的访问目的,而同一个用户在不同时期的访问兴趣也可能会发生变化。对网站来说,只有迅速满足用户的访问需求,提高信息服务质量,才能创造更大的经济效益。为了解决来自用户和网站双方面的问题,自适应网站应运而生。   本文主要研究如何利用web数据挖掘技术分析用户对网站的访问情况以获得用户访问模式,利用用户访问模式实现网站智能化,使其自适应的提供个性化推荐。为此本文主要做了以下几个方面的研究工作:   (1)分析比较用户访问网站的行为记录的来源,明确了本文web日志挖掘的数据源。   (2)对数据源进行预处理。数据预处理的好坏直接决定了用户访问模式挖掘的质量。本文对数据预处理进行了深入的分析研究,对其中的用户识别和事务识别进行了改进,并给出了数据预处理各个阶段的算法。   (3)利用序列模式挖掘算法挖掘用户访问模式。分析常用用户序列模式挖掘算法GSP算法,针对GSP算法多次扫描数据库以及产生大量候选集的缺点,引入FP-growth算法,它克服了GSP算法的缺点,但是它自身也存在着没有考虑页面访问的顺序,并需要产生条件模式树的缺点,所以本文以FP-growth算法为基础,对其进行改进,加上页面访问序列,并去掉了条件模式树。通过实验证明了算法的有效性,并考虑了改进算法的增量更新算法。   (4)根据自适应网站的需求和目标构建了一个自适应网站的系统框架,并由此框架设计了一个原型系统,实现了系统的各个功能模块,解决自适应实时推荐系统中的推荐精度低和覆盖率小的问题,并对原型系统进行应用性实验,从而验证了运用相关技术实现网站自适应的可行性。   本文应用web数据挖掘技术从访问日志中提取用户访问模式,利用用户访问模式对在线用户进行分析,进行自适应个性推荐。具体通过实时自适应推荐模块和站点调整模块来实现网站自适应,这有利于提高站点信息服务质量,促进智能信息处理领域的发展。  
其他文献
随着各种智能移动终端在人们的生产和生活中越来越普及,人们开始更多地使用定位服务,包括行车时目的地的导航、博物馆导引、查找附近的商店等等,因此对定位服务提出了更多的
学位
随着计算、通信和数字媒体技术的发展和渗透,以及嵌入式计算和通信设备的快速兴起,一种全新的计算模式一普适计算一正在兴起和发展。普适计算是信息空间与物理空间的融合,在
随着多媒体技术及工业视觉的迅速发展,嵌入式的图像信息资源的检索已成为国内外研究的热点。基于各种嵌入式平台建立有效的图像描述和检索机制已成为迫切需要解决的问题,基于
随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。本文采用潜在语义
随着计算机网络技术的发展,网络用户数飞速增长,网络的规模及网络的性能得到了较大程度的提升,网络复杂性不断的提高,这些对网络行为的研究提出了新的挑战。在错综复杂的高速
数据挖掘是从大量数据中提取出可信的、新颖的、有效的并能被人最终理解的模式的高级处理过程,通过综合运用统计学、模糊数学、神经网络、机器学习和专家系统等方法,从大量的
科里奥利质量流量计由于其可以直接测量质量流量、精度高和可以同时测量流体密度等优点,在许多工业领域中获得了广泛的运用。本文采用数字信号处理方法来处理科氏流量计的信号本课题的目的是研制出性能和精度达到国际一流水平的新一代数字化科氏流量计。本文主要从频率测量和相位差测量两个方面对科氏流量计的数字信号处理方法进行了算法研究,针对时不变信号和时变信号提出了两种数字信号处理系统模型。此外本文还对科氏流量计的驱
量子隐形传态(简称QT)一词最初来源于科幻小说,隐形传态是指一种无踪的传送过程,它把一个物理客体等同于构造该客体所需的全部信息,传递客体只需传递它的信息,而不用搬运该客体。
互联网技术的不断发展使人们进入大数据时代,获取数据的能力不断增强。人是互联网的主体,公开互联网上的数据很大一部分是以人物为中心的。以人物为中心的公开网络数据为研究