自适应多分类器集成学习算法

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户：cdelphiboy

【摘要】

：

数据的概念漂移特性是广泛存在的.提出一种挖掘概念漂移数据的自适应集成学习算法(adaptive multiple classifiers ensemble,AMCE).该算法通过给每个分类器分配独立的权重调整参数,增强自适应能力;并且利用基于KL距离的剪枝策略删除集成中存在的冗余个体分类器.实验结果表明,该算法能够有效地改善发生概念漂移时的分类预测结果,同时减少存储空间的使用,提高算法速度,并且其

【作者】

：

关菁华刘大有贾海洋

【机构】

：

吉林大学计算机科学与技术学院长春 130012 吉林大学符号计算与知识工程教育部重点实验室长春

【出处】

：

第二十五届中国数据库学术会议(NDBC2008)

【发表日期】

：

2008年5期

【关键词】

：

集成学习概念漂移 KL距离朴素贝叶斯分类器数据挖掘分类预测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

Intranet中Web对象的属性挖掘

随着互随着互联网的迅速发展,网络环境中的数据管理与挖掘成为研究热点.基于关键词的搜索引擎虽然获得巨大成功,仍无法满足人们的搜索需求.目前已有很多研究将网页中的文本信息进行更深一层的抽象,即对象化的抽象,然而由于Internet环境的复杂性,Web对象的信息通常难以挖掘整合.基于已有的Web框架,着眼于结构封闭性好,相关度高的intranet语料环境,将传统的面向对象的分析方式应用到Web对象建模的

会议

Web对象属性挖掘intranet搜索引擎对象化抽象

TEXEM:一种基于实体的邮件任务提取策略

在信息化飞速发展的今天,电子邮件的使用正在变得越来越频繁,而且其应用场合也在不断扩展,目前世界上很大一部分、并且越来越多的商业和个人往来都是通过电子邮件完成的.电子邮件的作用正在被人们不断拓展,特别是它作为任务管理和协作管理的重要工具和手段,被人们广泛使用。但是由于电子邮件数量越来越大,其设计初衷只是单纯的通信手段,具有轻量性和随意性等特点,因此当前的邮件管理工具很难有效地组织和管理人们的大量邮件

会议

任务提取实体识别电子邮件处理聚类任务管理TEXEM

一种基于贝叶斯的多窗口数据流分类模型

近年来,数据流挖掘已成为知识发现领域中的一个研究热点,而数据无限性和概念漂移性等特征使得传统的分类算法不能很好地适应数据流环境.提出一种基于贝叶斯的多窗口数据流分类模型(Bayesian classifier for classifying data streams based on multi-windows,BCCDSMW)对数据流进行分类.BCCDSMW考虑离散属性和连续属性的不同处理,对时

会议

数据流挖掘分类模型贝叶斯分类器滑动窗口

一种分布式数据集上top-n异常点挖掘的高效算法

异常点挖掘是一种从数据中分析并发现潜在的反常对象的数据挖掘技术,它在实际生活中有很多的应用,如入侵检测、金融数据分析、病症数据分析等。异常点挖掘具体技术与所研究的数据类型和数据环境有密切关系,已有研究大多是假定数据是集中分布在一张单表上的,而实际应用中很多数据是分布式的.分析了水平分布的数据集上异常点挖掘的问题,并提出了一个改进的基于Birch的分布式数据集中上top-n异常点挖掘的算法MOD.M

会议

异常点挖掘分布式数据集top-n数据挖掘K-Means算法

基于特征项权重改进的关联文本分类

ARC-BC是目前已知的分类效果最好的关联规则分类算法。但是,无论是ARC-BC还是其他的文本关联分类算法都是以规则的置信度为分类准则,完全忽略了特征项的权重,这导致了关联文本分类算法的性能较差.为此利用特征项权重定义了规则和文本的匹配度,以之作为关联分类器的分类标准,并在ARC-BC的基础上进行改进,提出了新的关联文本分类算法FWARC(feature weight-based ARC).实验结

会议

文本分类关联规则特征项权重匹配度文本匹配度

基于相互约束的模糊数据归类算法研究

依据物理学理论中的刚体最稳态结构,将数据集合看做物理实体,提出虚拟数字实体化观点和代表数据五元组、典型约束等概念,并在此基础上建立4点中心-边界算法(EFCBA)和基于相互约束的模糊数据归类算法(MRFCA).实验表明EFCBA算法提高了代表数据的集合代表性,缓解了图形不规则性对集合代表数据获取的影响;MRFCA算法有效利用了代表数据的特点,提高了归类准确率,并具有较好的自适应能力和未知新型数据归

会议

图形不规则性虚拟数字实体化模糊数据归类相互约束EFCBA算法

文本摘要算法集成与实现

自动文本摘要是文本挖掘技术中的一个重要的研究课题。现有的文本摘要系统大多是应用单一方法,基于特定领域提取摘要,不能够应用到各个领域中,所以将各种方法组合起来,将能够解决这个问题。在深入研究6种基本的浅层和实体层的自动摘要算法的基础上,实现多知识源融合的摘要系统,并应用基本的机器学习算法对上述的算法进行了特征组合的分类器的训练、交叉验证和测试,找到最佳的特征组合参数,形成摘要.采用内部评价方法对系统

会议

自动文本摘要特征组合实体层算法文本挖掘多知识源融合

一种面向网络安全的序列模式挖掘方法

提出了一种面向网络安全的序列模式挖掘方法。引入IP约束窗口的概念,利用IP地理信息和IP拓扑信息建立IP约束窗口模型,并且使用时间滑动窗口进行序列模式挖掘,是一种在特定领域中基于约束的序列模式挖掘方法。可以有效减少候选集数量,提高挖掘效率,实验证明这是一种有效的特定领域应用的序列模式挖掘方法。

会议

时间滑动窗口IP约束窗口IP地理信息网络拓扑网络安全序列模式挖掘

一种基于社区划分的科技主题识别算法

对科技文献进行自动主题识别能够帮助用户更好地掌握学术研究中的动态.主题识别的时效性即如何依据现有数据及时探测新主题的产生,是影响其实用程度的关键因素.提出一种引用次数和社区划分相结合的科技主题识别算法STD,依据top节点所在社区的变化检测新主题的产生.在真实数据集上的实验结果表明,该方法可在只有当前而非全部历史数据的条件下,及时、准确地识别新主题的形成.

会议

主题检测引用网络社区划分科技主题识别科技文献

基于构造路径的存储过程SQL注入检测

入侵检测领域的相关研究大多忽视了对利用存储过程的SQL注入攻击的检测.提出了基于构造路径的存储过程SQL注入检测方法。通过对执行流程的分析,得到执行参数的构造路径,形成检测规则.检测时替换规则中的输入参数为用户输入值,对所得到的SQL语句进行结构和语义上的检测.在标准测试平台TPCW上的实验结果表明,不仅在检测率还是漏报率上都要优于同类研究工作;在增加了基于该方法构建的检测模块后对系统性能影响不大

会议

SQL注入检测存储过程构造路径数据存储

自适应多分类器集成学习算法

其他学术论文