Web使用挖掘若干关键问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:bambooasu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web使用挖掘(Web Usage Mining)是应用数据挖掘技术从Web数据中发现使用模式的过程。Web提供了一种不受时空限制的人机交互界面,为大规模记录,收集,分析和抽取用户行为信息提供了巨大的技术发展空间。在此背景下,Web使用挖掘研究得到了学术界和工业界的广泛关注,由此衍生的技术大量应用在科学研究,软件设计以及商业智能等领域。 本文总结了目前Web使用挖掘研究的现状,对其中存在的一些问题作了深入的研究和探讨。这些问题分别涉及频繁序列模式挖掘,Web用户行为特征相似性/差别的量化方法,以及支持Web站点设计优化的数据挖掘技术。 本文的主要贡献如下: (1)提出了一个称为TD-WAP-Mine的频繁序列模式挖掘算法。和已有的算法相比,它采用了新的频繁模式搜索策略,大幅度减少了在构造中间数据方面的工作量。大量的实验结果表明此算法在运行速度方面好于原有的算法,特别适合用在需要挖掘大量频繁模式的场合。 (2)提出了一种使用Web结构数据所蕴涵的语义信息量化使用行为特征差别的方法。与已有的研究相比,特征项之间的关系表示结构从有向根树扩展到了有向无环图。基于核心概念“最大相似宽度”,此方法为量化使用行为特征在语义上的差别定义了一组距离函数。在关系表示结构是有向根树的条件下,这些距离函数均满足三角不等式特性,在提高搜索效率方面具有优势,弥补了以往研究存在的缺陷。实验初步表明此类距离函数在最近邻查询效果和计算速度方面可与已有研究媲美。 (3)提出了一种新的支持站点设计优化的Web使用挖掘方案。此方案基于历史搜寻路径统计用户寻找目标花费的平均时间,用以量化Web页面的搜寻费用。在此基础上提出了一种高效的数据挖掘方法,寻找一组能够有效压缩搜寻路径(降低搜寻费用)的超链接。实验表明挖掘的结果能够提供许多有用的信息,帮助管理者及时发现站点设计中存在的问题。
其他文献
电视纪录片在我国经历了半个多世纪的发展,已经成为老百姓津津乐道的节目形式,其以独有的写实记录的方式表现着深刻的内容,将老百姓的思维方式,由文字思维带入到画面思维,让
网络服务是面向服务体系结构SOA(Service-Oriented Architecture)的核心,如何对服务进行有效的重组是提高网络服务实用性、可靠性的关键所在。网络服务重组涉及到很多急待解
随着计算机技术和通信技术的发展,由入侵而造成的损失以及和计算机相关的犯罪也急剧增加。因此,网络安全即确保系统按照预期目标正常、稳定的运行,成为人们关注的焦点。入侵
目的 了解医护人员被针刺伤的情况,为采取防护措施提供科学依据.方法 采用问卷调查法调查医护人员被针头刺伤时的有关情况.结论 医护人员应主动增强职业防护意识,加强职业防
介绍了浮选柱发展历史、工作原理和主要技术参数,结合国内外研制进展和生产实践,分析其优势与局限性,提出了浮选柱的发展方向。
自2016年'应用型本科高校'概念提出以来,全国已有超过200所高校展开了改革转型工作。随着中国特色社会主义建设进入新时代,高校应该承担起为社会发展和经济发展输送
一场雪,一场从遥远的北方轻踏而来的飞雪,落在了我的双肩,围裹着我的小屋,我的村庄和沟梁。我的视线抵达不到雪花的深处,我的视线被一片白分剪、隔断,纷纷随着雪片下滑、沉落
期刊
"杏岭丹霏"是山东省宁阳县一处优美的景点,它和该地区的"云山烟雨""蟠龙玉洞""激水轰雷(宝泉寺)""汤沸珠玑(西孙滩龙港泉)""万祀古槐""虬枝歧柏""禹碑虹渚"一起,并称为"宁阳
期刊
同志们: 下午好!很高兴参加全省盐业党建暨纪检工作会议,与大家进行面对面地交流。专题召开党建暨纪检工作会议,体现了省盐业集团党委对党的建设和反腐倡廉工作的高度重视。刚才
英国作家伊恩·麦克尤恩创作的长篇小说《只爱陌生人》,讲述了一个美的疯狂迷恋者为满足自己日益膨胀的情欲而将美的对象摧残致死的故事,这部小说与德国20世纪伟大作家托马