时间序列数据挖掘算法研究及其应用

被引量 : 0次 | 上传用户:yang176239053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网和信息行业的迅猛发展,时间序列数据的产生也越来越多,成为了当今世界十大具有挑战的数据挖掘问题之一。高效利用时间序列数据,并从中获取有用的知识,对社会的发展有着十分重大的意义。所谓时间序列,是指针对某种现象采集某个统计指标在不同时间上的数值,并按时间先后顺序排列得到的数据,在电信业、股票市场、网络入侵、生物医学、电子商务市场等众多领域广泛存在。时间序列的特点是数据量大、维度高、随着时间更新,而且通常是连续值,因此传统的数据挖掘算法直接应用于时间序列的效果并不理想。本文针对上述问题,展开对时间序列的数据挖掘研究,提出了基于流形学习的特征选择算法(MBFS)和双加权支持向量机(DWSVM),并将研究结果应用到了疲劳驾驶预测的挖掘主题中。论文的主要研究工作如下:1)针对时间序列空间复杂、数据维度大的问题,提出了基于流形学习的特征选择算法(MBFS)。该算法结合了度量学习、流形学习和稀疏系数向量学习的优势,根据样本中的各个特征对模式识别的贡献率进行评分,选出评分高的特征。其中,信息理论度量学习(ITML)的距离表示方法,把数据映射到一个新的欧氏距离空间,高度还原了原始数据;流形学习则能够从高维空间中找到低维流形,发现数据的内在规律,实现维度规约。与传统特征选择算法的对比实验表明,通过该算法对样本进行特征选择,大大降低了分类难度,并且提高了分类精度。2)针对时间序列的样本非平衡问题,提出了基于样本类别加权和样本特征加权的双加权支持向量机(DWSVM)模型。该算法基于对样本分类的贡献率,建立支持向量机模型时对少类样本和多类样本赋予不同的权重;并用MBFS算法的原理计算样本各个特征的权重,重新构造了核函数。实验表明,在非平衡数据集上,双加权支持向量机的分类性能比一般的支持向量机好。3)将上述研究结果应用到了疲劳驾驶预测的挖掘主题中。该项目的任务主要包括:实验平台搭建、数据采集及预处理、数据分割、特征表示、特征选择、建立模型和模型验证。仿真结果表明,这套数据挖掘体系在疲劳驾驶预测的应用中取得了比较高的精确度,有较好的应用前景。
其他文献
网印陶瓷贴花纸装饰设计主要是给日用陶瓷设计画面。在当前激烈竞争快速发展的时代,企业要想发展、进步不仅要有高品质的质量和完善的服务,还要不断推出新产品新画面,以争取市场
基层是行业发展的根基,是行业全部工作的基础。基层队伍人员数量多、素质参差不齐等实际,导致某些基层单位员工队伍常常存在“散”的问题,主要表现为纪律观念不强、活力不足、工
报纸
目的:总结鼻腔鼻窦内翻性乳头状瘤(SNIP)恶变患者的临床特征和治疗方法,探讨影响其预后的因素。方法:回顾性分析35例SNIP恶变患者的临床资料,采用Kaplan-Meier法、Log-rank单
<正>党的十八大以来,以习近平同志为核心的党中央在全面从严治党方面取得的进展和成就,已经获得党和人民的公认。学习习近平总书记党建思想,可以发现他始终把"治党"放在"治国
<正>现代人生活方式的改变及环境的危害,乳腺癌已日渐成为女性最常见的恶性肿瘤之一,发病率居女性全身各种恶性肿瘤的第2位,已成为威胁妇女健康的主要病因。乳腺癌患者目前临
随着信息技术在各领域的渗透和应用,以及国家对通信行业实行的鼓励竞争的态度,广电网络行业正面临着极大的机遇与挑战。一方面,广电行业一直作为党和国家宣传机构的重要一环而受
对NIST的时间频率溯源链的重要特征给予述评.介绍NIST的宗旨、任务,阐述了溯源链的含义、意义和标准时间的保持、控制和频率基准在守时中的重要作用.给出授时系统溯源链方块
综述了森林环境资源的概念和实现森林环境资源市场化所必须系统解决的若干相互联系的问题及其研究情况,包括森林环境资源价值评价、产权明晰、委托代理、筹资与投资、市场化
在经济全球化的时代背景下,大量外资企业不断涌入,中国劳务市场随之活跃,因而翻译此类合同的重要性日益突出。而劳动合同翻译具有专业性、逻辑性强、用词严谨的特点。因此本文将
目的探讨品管圈活动缩短晨间护理交接班时间的应用效果。方法成立品管圈活动小组,以缩短护理交接班时间为主题,分析晨间护理交接班中存在的问题,寻找导致交接班时间过长的原