基于余弦相似度的概念漂移数据流分类方法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:yyj55555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对数据挖掘技术需求的不断深化,例如实时监控、网络入侵检测、垃圾邮件处理、信息智能推送等,数据挖掘技术由最初的分析静态有限的数据,逐渐发展到现如今的分析动态无限数据。数据流分类技术已经成为数据挖掘中的一个研究热点。数据流是以流的形式实时到达的动态数据,具有数据量大、到达速度快、连续实时到达等特点。由于数据流发生的概念漂移现象会导致分类器的性能下降,因此,本文首先对数据流进行概念漂移检测,在分析数据流所具有的特性的基础上提出了一个有效的概念漂移检测方法;然后对检测后的数据进行分类,并提出了一个数据流选择集成分类方法,以提高数据流的分类性能。本文的具体研究内容如下:(1)针对数据流中存在的概念漂移问题,提出了一个基于余弦相似度的概念漂移检测算法。提出的算法首先运用滑动窗口原理将数据流看成连续相等大小的数据块,并求出数据块中各类的质心。然后分别计算相邻两块各类质心连线的余弦相似度,余弦相似度越大,表明相邻两数据块质心连线夹角越小,相邻两数据块发生漂移的可能性越小;反之,相邻两数据块质心连线夹角越大,相邻两数据块发生漂移的可能性越大。最后根据参数估计的方法求出余弦相似度的最小置信区间,若后续到达的数据块相对于前一数据块的余弦相似度不在置信区间内,则认为数据流在当前块发生了概念漂移。实验表明基于余弦相似度的概念漂移检测算法能够有效的检测出数据流上发生的概念漂移,从而提高了数据流分类的准确率。(2)针对数据流的分类问题,提出一个基于差分进化的选择集成分类算法。首先将数据流分成连续相等大小的数据块,使用当前的数据块训练出若干个基分类器。然后用差分进化方法对各个基分类器分别赋予不同的权值,基分类器的权值越大,表示在分类中的表现越优。最后在所有基分类器中选择几个权值最大、表现最优的基分类器进行加权投票集成,使用集成的分类模型分类之后到达的数据块。实验表明基于差分进化的选择集成分类方法具有稳定性好、泛化性强、分类准确率高等优点。
其他文献
最早的microRNA(miRNA)基因发现于1993年。在经历了近十年的默默无闻之后,它被视为一类新的调控型RNA的创始成员。microRNA基因表达大约22个核苷酸RNA,可以调控含有反义互补序列
秦王朝建构了以"威德"为重要特征的皇权政治,然而"威德"之于秦有着正反两面意义,秦因"威德"而夺天下,也因"威德"而失天下。贾谊"守威定功"这一理念的提出,不仅揭示了"威德"对
近年来,我国环境保护工作取得积极成效,但环境污染总体尚未得到遏制,形势依然严峻.而工业排放的三废(废水、废气、固体废物)是重要的污染源,研究工业三废的处置效果对于环境
目的:观察地西他滨治疗骨髓增生异常综合征的不良反应及护理效果。方法:观察7例应用地西他滨治疗的骨髓增生异常综合征病人的用药准备、用药情况、不良反应及护理结果。结果:地
新冠肺炎疫情区域扩散以武汉为中心,随着春节大量人口的返乡流动呈现加速态势。整个湖北省需要城乡协同,共抗疫情,特别是武汉大都市圈内的黄冈、孝感等地区;在全国层面上,要
目的探讨右旋糖酐40注射剂致严重不良反应发生的特点。方法采用回顾性研究方法对广州市药品不良反应监测中心2015年85例右旋糖酐40注射剂的严重不良反应报道进行分析。结果右
回顾了联合利华在局部毒性测试替代方法开发及化妆品安全评估等方面所取得的成果,同时介绍了联合利华与各国政府机构、学术界和工业界合作开发用于全身毒性评估的动物实验替