WEB数据挖掘研究

被引量 : 0次 | 上传用户:qqjianshen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的发展,在线信息量迅速增长,数据流模型在一些信息处理应用中广泛出现。这些应用包括多媒体、计算机网络安全、网络交通监控、传感器网络等等。在这种情况下,数据流作为专门针对数据无限性、瞬时性和时变性等特点的新数据模型,更能适合WEB应用环境。因此,数据流处理的研究近几年来逐步兴起,并迅速成为WEB数据挖掘中的一个重要的研究问题。数据流分类是数据流挖掘中的一个重要研究领域,但在原来的数据应用背景下的分类算法,都隐含地假定所要挖掘的数据存放在一个相对稳定的环境中,即在挖掘进行的过程中,待挖掘的数据库或数据仓库中的数据或者是固定不变的,或者更新频率是较低的。数据流所具有的特点便对挖掘算法带来了巨大的挑战,具体来说:(1)数据总量通常被假定是无限的,无论到达多少数据,分类算法只能使用不超过某个大小的内存;(2)对数据的多次扫描代价太高,算法通常只能对数据扫描一次;(3)学习算法必须快速地适应数据流中出现的概念漂移;(4)数据流分类算法应该在任意时刻都可以产生一个分类模型。本文主要关注从理论方面研究数据流分类分析,同时对WEB数据挖掘应用研究也进行了一些探讨。研究工作得到了国家自然科学基金(2069901)和国家教育部博士点基金(2069901)的部分资助。对数据流分类技术的理论研究方面,主要成果如下:1.为了有效处理数据流中的重现背景,设计了一种能够有效处理重现背景的数据流模型,给出了一种可以有效挖掘重现背景的数据流分类算法RTRC(Recognizing and Treating Recurring Contexts)。该算法在扫描了足够多的数据后,即使在概念漂移时也能达到良好的分类效果。通过马尔可夫链和最小二乘方法,该算法可以学习并预测即将到来的概念和精确的概念漂移时间。通过在人工数据集和基准(Benchmark)数据集上的实验,与两种有代表性的方法WeightedBaggging和CVFDT(Concept-adapting Very Fast Decision Tree learner)进行比较,表明我们的算法具有更高的准确度和更快地收敛到新的目标概念的性能。2.噪音处理和概念漂移是数据流挖掘中的困难问题。本文探讨了如何使用聚类方法在数据流中区分出噪音实例,并提出了相应的概念漂移检测方法。在此基础上,设计了基于推进技术的组合分类器算法RobustBoosting。在人工数据集和实际数据集上的实验表明,我们的算法即使在高达40%的类噪音时,与AdaptiveBoosting算法相比,仍能保持更高的分类准确度,具有更快收敛到新的目标概念的能力。3.许多研究者已经提出了可以处理概念漂移的学习系统,其中一些系统假定流数据是以连续数据段的形式抵达。针对这种数据流,研究界已经提出了基于组合分类器的处理方法。虽然这些系统可以处理逐步的概念漂移,但是不能有效地处理突然的概念漂移。为了解决这个问题,本文定义了一种相反分类器来从错误中学习,并提出了训练一个组合分类器来对具有概念漂移的数据流进行分类的算法IWB(Improved Weighted Bagging)。在人工数据集和基准数据集上的实验结果表明,IWB算法在遇到概念漂移的时候能很快收敛到目标概念,并具有很高的精度。4.目前对数据流挖掘的研究,主要关注有标记的实例可以学习时,怎样发现模式中的变化以及怎样更新模型去反映这种变化。然而在真实的数据流中,数据往往没有类标记。为了解决这个问题,本文提出了一种基于累积和(CUSUM)控制图的变化发现方法。该方法在未知真实类标记的情况下,可以发现数据流中的概念漂移和分布变化。实验验证表明,此方法是有效的。本文也从WEB数据挖掘应用的角度进行了一些研究工作,主要成果如下:1.WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合,本文提出了利用WEB页面内容和超链信息并结合SVM分类器的WEB社群挖掘方法。在包含8282个网页的WEBKB数据集上的实验结果表明,本文提出的方法可以挖掘出较大而且有意义的社群。2.目前有大量的研究关注利用序列关联规则算法来预测用户的最近HTTP请求。本文设计了基于不同次序特征和时间特征的序列关联规则挖掘算法,比较了不同序列关联规则算法在WEB日志挖掘中的预测精度,并在Clarknet Web Log数据集上进行了实验。最后,使用方差分析方法对影响预测精度的次序特征和时间特征进行了分析,发现都比较显著,并且这两者之间的交互影响也不可忽略,但时间特征对预测精度的影响更大。
其他文献
库存管理中,安全库存是针对采购期和需求不确定性而设置的库存。安全库存量的大小,取决于企业愿意承担的缺货率和对不确定性因素的把握程度。安全库存对企业有着重要的作用。
近年来,由于工业的迅猛发展和人口膨胀,水的消耗急剧增加。众所周知,纺织工业中印染生产工序产生大量的染色废水对水质和环境造成严重的危害。纺织行业面临的主要挑战是:不增加成
随着经济全球化的来临,人力资源管理在现代企业的经营管理中发挥着越来越重要的作用.绩效管理是人力资源管理的核心,绩效考核又是绩效管理的关键环节,在实现企业战略方面起着
大面积混凝土无缝施工技术已经在许多工程中进行试用,并且在使用过程中也并未出现裂缝,但是作为一种新型施工工艺还应进一步进行探索和研究。根据具体工程介绍大面积混凝土无缝
通过分析高职电子商务英语的教学现状,阐述其与翻转课堂的内涵统一,建构翻转课堂的教学结构模型,探索有效教学策略。同时,翻转教学改革对于转变高职传统课堂教学观念、提高理
<正> 1、一种具有高导热性能的模具直冷式金属拉丝模(简称直冷模)是一种具有高导热性能,能快速扩散金属丝变形区热量的拉丝模具。它适用于各种金属丝的拉拔,尤适用于综合机械
本文解释了什么叫蚕丝接枝聚合,分析了接枝聚合的目的,列举蚕丝接枝聚合加工用的主要单体,着重介绍蚕丝接枝聚合加工技术的进展。
随着举世瞩目的2014年APEC峰会的召开,北京雁栖湖国际会都核心岛的设计也越来越引起公众的关注和业界的兴趣。AECOM作为一个全球性的设计机构全程参与并设计这样一个国家级的
沸石膜因其具有独特的物理化学性质以及与分子尺寸相近的孔道体系,故能耐高温、化学及生物侵蚀,可在分子级别上进行物质分离,实现催化分离一体化优点,兼具沸石分子筛与无机膜的特
蛋白酪氨酸磷酸酯酶1B (protein tyrosine phosphatase1B, PTP1B)通过对胰岛素受体(insulin receptor, IR)、胰岛素受体底物(insulin receptor substrate, IRS)的去磷酸化作