Web访问信息挖掘及其应用

被引量 : 2次 | 上传用户:happytime3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。 Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。 本文的工作是在“Web访问信息挖掘软件包”的开发过程中,对WWW上用户访问信息的挖掘技术进行了较为深入的研究,包括数据清洗,事务识别,Web播出中的聚类算法,关联规则发现等工作,并将Web数据挖掘 技术应用于基于Cable的WEB页面广播中。本文的主要工作如下: 1.通过数据预处理技术,将Internet上非结构化或半结构化的信息组织成逻辑单元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就可以利用对传统数据挖掘的方法(如关联规则和序列模式的发现等)对Web数据进行挖掘;另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关的数据,有效地提高了挖掘效率。 2.将传统数据挖掘技术中的关联规则发现技术引入Web数据挖掘,求高频物品集是关联规则发现的核心,也是计算量最大的部分,我们采用了一种快速算法Apriori,并针对在Web应用的特点进行了改进,有效地提高了求高频站点集的效率。通过分析Web访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联规则发现可以在网站构造、Web广播等活动中得到广泛应用。 3.宽带网进行Web广播时,其播出的内容是一个大的Web页面集合。针对如何得到这个Web页面集合,以及如何组织这个Web页面集合以利于用户浏览这两个问题,本文提出一种新的聚类方法WebClustering,通过聚类得出聚类中心和聚类集,通过关联规则算法得出可信度,据此构造
其他文献
实例及研究表明,基于模糊一致矩阵的驾驶员因素对交通事故影响的定量评价模型,是一种度量驾驶员因素对交通事故影响的有效方法,它为定量研究驾驶员事故致因提供了新思路,并为
为了筛选耐苏打盐渍土的转基因杨树优良株系,以苏打盐渍土的主要成分NaHCO3胁迫处理转Ta LEA基因的山新杨各株系与对照(NT),测定不同株系的苗高和地径等生长性状,测定净光合速
第一部分 FRH方提取工艺及提取物质量控制研究 一、FRH方提取工艺研究 目的 对FRH方提取工艺进行优选,制定合理、可行、稳定的制备工艺。方法 (1) 对FRH方的提取方法进行
在现代化建设的今天,在我们的民族文化不断走向世界的今天,我们需要传承与弘扬中华民族的优秀文化传统,而文言文的教学无疑应该成为传承和弘扬我们民族传统文化的主阵地。文言文
江苏省中医药系统首创并推广了多专业一体化综合诊疗服务,形成了"医生围着病人转,诊疗围着疾病转,科室围着疗效转,行政围着临床转"的医疗服务新模式。调查表明,多专业一体化
本文叙述基于ASIC的低功耗MP3解码器设计,从算法级、结构级和电路级等层次综合考虑,达到降低功耗的目的。在算法级,提出了用地址产生代替通常的“比特池”缓冲区;提出了结合
目的:探讨回顾性心电门控64排螺旋CT冠脉血管成像心率与最佳重建时相的关系,并评价心率对最佳重建时相下图像质量及可诊断率的影响。方法:104例患者行64排螺旋CT(GE Optima 680)
目的: 研究社会,心理因素、5-羟色胺转运体基因启动子区多态性(5-HTTLPR)与乳腺癌抑郁障碍发病、抑郁症状严重程度的相关性。探讨在应激状态(患有乳腺癌)下,5-HTTLPR基因多态
通过对长阳地区资丘木瓜[Chaenomeles lagenaria(loisel)Koidz]的病虫害发生情况进行调查,当地资丘木瓜上的主要病虫害为“两虫一病”,即食心虫、蚜虫和褐腐病。对以上三种病虫
随着经济的稳步增长,我国宠物业的迅速发展,动物保健药品的需求量不断增加。为预防和治疗宠物犬和猫的真菌、细菌及混合感染性皮肤病,制备由1%酮康唑和2%葡萄糖酸氯己定组成的宠物