【摘 要】
:
稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都可看作稀有类识别问题.本文考察了如何使用Bagging技术来分类稀有类,提出了Bagging基于eEP的组合分类算法BeEPRC.通过改进的加大稀有类样本抽样比例方法及多分类器投票策略,BeEPRC对稀有类表现出了很好的分类性能.在
【机 构】
:
郑州大学计算机科学系,郑州,450052;河南理工大学计算机科学系,焦作,454000 郑州大学计
论文部分内容阅读
稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都可看作稀有类识别问题.本文考察了如何使用Bagging技术来分类稀有类,提出了Bagging基于eEP的组合分类算法BeEPRC.通过改进的加大稀有类样本抽样比例方法及多分类器投票策略,BeEPRC对稀有类表现出了很好的分类性能.在UCI机器学习库的多个稀有类数据集上的实验结果表明,BeEPRC不仅对稀有类具有较高的查全率和查准率,而且具有很高的分类准确率.从而证实了基于eEP的分类算法是不稳定的,于是可以考虑对基于eEP的分类器应用Boosting技术来提高分类效果;另外对稀有类样本和普通类样本寻找不同的分类方法也是值得深入研究的问题.
其他文献
介绍了超高频射频身份识别(RFID)系统中循环冗余校验(CRC)电路的原理与特点,在FPGA平台上实现并进行系统性能分析。利用递归公式法设计了一种算法简单、结构紧凑、运算速度快的并行CRC电路。
特高压输电网络的特点是大容量、长距离输电,它以其特有的技术优势将在我国未来的经济建设和社会发展等方面担负起重要作用。本文从产品的材料选择和外观质量影响方面介绍了特高压输变电工程用耐热扩径母线的制造技术。
对具有变时滞变量的二元神经网络方程,运用时滞泛函微分方程理论和方法研究它们解的各种性态。给出了其解存在的唯一性定理,数值求解的系统方法以及精度分析。最后通过相关算例,验证了本文理论的正确性和方法的有效性。
语义Web是由万维网之父TimBerners-Lee最早提出来的.语义Web是当前Web的扩展,是Web技术的未来发展方向.它通过结构化Web页面的内容,使Web上的信息都有定义好的含义,从而实现人机以及计算机之间基于语义的信息交换,达到更加自动化和智能化的服务.本体在语义Web框架中处于承上启下的重要地位,是构建语义Web的基础.本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,
协同过滤算法目前被广泛地应用于电子商务、电子图书馆等众多领域,随着系统的不断庞大,传统的算法暴露出许多缺点,本文提出的基于项目分类的协同过滤算法大大提高了在用户评价稀疏的情况下推荐的准确度.但对项目的特征分解和聚类加大了离线计算的计算量,下一步将探讨更为有效的方法来解决精度和效率的平衡.
目前GEP的进化完全依赖其自身能力,人们只能被动接受完全的自然选择的结果.本文提出将转基因的思想引入GEP中,希望能够借此对进化过程助一臂之力.
本文简要描述了基于XML的Web数据集成系统,介绍了查询分解策略,给出了快速响应多个查询的查询优化策略,最后总结全文.
本文介绍了使用界标和增加/删除网页文档两种当前比较典型的更新策略,并对它们进行了分析比较,对使用界标和插人/删除文档这两种更新策略进行改进;用实验对改进策略进行了验证比较;在文章最后,给出相应的结论和应用前景.
本文根据全文数据库的特点,提出一种全文检索的组织方式,比较了全文检索方法与常规的数据库内搜索的不同之处,完成一个基于DotLucene的全文检索技术对知识库站内查询的实现,把模糊查询变成了多个查询条件精确查询的逻辑组合,查询功能强大,检索速度快,取得了良好的效果.
基于XML的Cache系统是XML数据管理领域一个重要的研究问题.本文在分析基于XML的Cache系统功能的基础上,简单介绍了一个实用的XMLCache系统--CACX;并对CACX系统中的数据组织以及数据更新策略进行研究;根据XML数据更新的特点,提出了基于关联规则的Cache数据组织方法,降低了数据更新的数据开销;同时讨论了CACX系统三种数据替换策略及其代价模型.理论分析表明,本文提出的第二