论文部分内容阅读
近年来,随着互联网和信息行业的迅猛发展,时间序列数据的产生也越来越多,成为了当今世界十大具有挑战的数据挖掘问题之一。高效利用时间序列数据,并从中获取有用的知识,对社会的发展有着十分重大的意义。所谓时间序列,是指针对某种现象采集某个统计指标在不同时间上的数值,并按时间先后顺序排列得到的数据,在电信业、股票市场、网络入侵、生物医学、电子商务市场等众多领域广泛存在。时间序列的特点是数据量大、维度高、随着时间更新,而且通常是连续值,因此传统的数据挖掘算法直接应用于时间序列的效果并不理想。本文针对上述问题,展开对时间序列的数据挖掘研究,提出了基于流形学习的特征选择算法(MBFS)和双加权支持向量机(DWSVM),并将研究结果应用到了疲劳驾驶预测的挖掘主题中。论文的主要研究工作如下:1)针对时间序列空间复杂、数据维度大的问题,提出了基于流形学习的特征选择算法(MBFS)。该算法结合了度量学习、流形学习和稀疏系数向量学习的优势,根据样本中的各个特征对模式识别的贡献率进行评分,选出评分高的特征。其中,信息理论度量学习(ITML)的距离表示方法,把数据映射到一个新的欧氏距离空间,高度还原了原始数据;流形学习则能够从高维空间中找到低维流形,发现数据的内在规律,实现维度规约。与传统特征选择算法的对比实验表明,通过该算法对样本进行特征选择,大大降低了分类难度,并且提高了分类精度。2)针对时间序列的样本非平衡问题,提出了基于样本类别加权和样本特征加权的双加权支持向量机(DWSVM)模型。该算法基于对样本分类的贡献率,建立支持向量机模型时对少类样本和多类样本赋予不同的权重;并用MBFS算法的原理计算样本各个特征的权重,重新构造了核函数。实验表明,在非平衡数据集上,双加权支持向量机的分类性能比一般的支持向量机好。3)将上述研究结果应用到了疲劳驾驶预测的挖掘主题中。该项目的任务主要包括:实验平台搭建、数据采集及预处理、数据分割、特征表示、特征选择、建立模型和模型验证。仿真结果表明,这套数据挖掘体系在疲劳驾驶预测的应用中取得了比较高的精确度,有较好的应用前景。