区间型符号数据特征选择方法及其应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lbc573332496
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集和存储技术的不断进步,越来越多的数据出现在各个领域当中。数据的不断丰富加大了对海量数据分析方法和技术的需求。传统的数据分析方法在处理海量数据时,往往计算量很大,且难以从整体上掌握样本的性质。符号数据分析(Symbolic Data Analysis, SDA)技术通过对数据进行压缩处理,在一定程度上克服了传统数据分析方法的缺点。区间型数据作为最常见的一种符号数据,具有重要的研究意义。对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。要对区间型符号数据进行分析,首先要考虑区间数的相似性度量问题。因此,本文首先整理了比较常见的几种区间数相似性度量方法,并对其进行比较分析,发现区间数Hausdorff距离和区间数欧氏距离更符合区间数产生的意义,并将它们作为后续算法度量区间数相似性度量的基础。另外,本文给出了一种新的区间数距离度量方法,可以依据不同的分布调整相应的参数,以更好的表示区间数的意义。然后,由于原有的区间型符号数据特征选择方法不能识别类中心分别相互靠近的特征,所以针对此缺点本文提出了一种新的特征选择方法(FSMSID),该方法通过建立使得样本点与其所在样本类中心相似性与其他类中心相似性均值的差值最大化的优化模型,利用Lagrange乘子法求得区间型符号数据的特征权重,然后基于得到的特征权重构建相应的最近邻分类器,并以分类器的精度来评价所估计特征权重的优劣。在评价分类器的精度时,本文采用了十折交叉验证的方法。最后,为了验证本文方法的有效性,分别在人工生成的数据集和真实数据集进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别与类标号有关的特征。为了验证区间型符号数据分析方法相比于传统点数据处理方法的优越性,将FSMSID方法应用于胎儿心率监测数据集Cardiotocographyo首先要对Cardiotocography数据集做一定的预处理,然后将其转化为区间型符号数据,将FSMSID算法应用于该数据。最后通过与最近邻分类器在精度、时间复杂度上相比较,以验证区间型符号数据分析在处理大规模数据上的优点。此外,为了验证区间型符号数据比仅依靠样本均值表示数据的好处,分别依据所“打包”生成的区间型符号数据和“打包”样本点的均值,产生最近邻分类器,通过比较其对应分类器的分类精度来说明区间型符号数据比较起样本均值的优势。
其他文献
城市轨道交通是缓解城镇化加快带来的交通拥堵等一系列问题的重要工具。然而城市轨道交通造价高、长期运营亏损,给地方财政造成了巨大的压力,为了弥补财政资金不足这一问题,
有的画家由于现实主义被冷落而产生悲哀。这不是现实主义本身的问题,是社会发展的结果。不能用国外的标准来衡量中国文化。现代主义绘画在中国还处于萌动中,还远不能和西方相
期刊
对于高年级的硕士生或博士生来说,经过两年或三年的科研工作想必都有不少感悟。在这里简要概述本人认为重要的几个方面,希望对刚进入实验室的同学有所参考。研究生阶段十分短
“我们分别在1985年11、12月份收到过你交来的石铲、陶鬲、陶球、鸡腿瓶等文物。经专家鉴定,石铲、双腿瓶为西周遗物,由此可知你村的历史可追溯到6000年前的西周时期。
日前,“霸州杯”第六届中国戏曲红梅大赛河北选拔赛决赛在霸州市李少春大剧院隆重举行。来自全省各地市、县的100余名优秀选手在这里进行了为期3天的颠峰对决,为广大戏迷票友呈
1986年初,文珊同志从西藏回到河北任省委副书记,主管文化、教育和意识形态方面的工作。他在省委任职工作这6年间,我们三个人先后任省委宣传部文艺处处长,接触很多,甚至可说是
长达近十米的景泰蓝水晶红木长屏《八十七神仙卷》,那明快又有生命力的线条,优美的造型,生动的人物体态,将天王、神将那种“虬须云鬓,数尺飞动,毛根出肉,力健有余”的气派表
随着经济的腾飞,企业间的联系越来越紧密,市场竞争已由传统的企业与企业之间的竞争转向了供应链与供应链之间的竞争,供应链管理和供应链协调问题成为学术界和企业界关注的焦点。