论文部分内容阅读
本文是基于机器学习中的局部加权学习(Locally Weighted Learning,简称LWL)进行了深入的研究,这种学习方法既可用于回归问题(局部加权线性回归),又可用于分类问题(局部加权朴素贝叶斯)。局部加权回归问题已经广泛的运用于机器人控制和数学统计问题中,并取得了良好的效果。局部加权分类问题还是比较新的方法,在分类算法中与其他分类方法比较,取得了较好的实验结果,提高了分类的精度。而它们都需要对训练实例根据它们离测试实例的距离进行加权。传统的局部加权学习算法中实例间距离度量方法采用的是欧几里德距离公式计算,这种距离通常涉及所有的特征。本文就针对这一问题进行了深入的研究,提出了改进的方法。
本文首先介绍了局部加权学习在国内外研究的现状、目的及意义,并阐述了论文的研究思路和步骤。然后,在分析局部加权学习算法的基础上,详细论述了局部加权回归学习模型的框架和核心算法:数据相似性、局部加权矩阵、数据加权函数、模型平滑参数和计算查询点局部方差与预测置信区间的方法;局部加权分类模型的思想:将局部加权方法有效的结合朴素贝叶斯算法,减少了属性间的依赖性,有效提高分类精度;同时也阐述了局部加权算法中存在的一些问题,其中针对具有不同属性类型的样本实例,修改其距离函数,使名词性和数值性属性数据得到更精确的分类。常用的距离函数能够很好地处理连续属性值,但是处理名词性属性值的效果却不好,而值差分方法(Value Difference Metric,简称VDM)能够合理地计算出名词性属性值之间的距离,但它在连续属性值上效果较差。所以采用了插入值差分方法(Interpolation Value Difference Metric,简称IVDM)不但能够很好的处理好名词性属性值之间的距离,而且在处理混合型属性和数值型属性之间的距离,也能取得较好的效果。
本文深入介绍了三种相似性距离度量方法,并将这三种方法替换局部加权学习算法的距离函数,以局部加权朴树贝叶斯方法为例,针对这种方法分类效果做实验。通过在WEKA中将上述三种距离函数与局部加权朴素贝叶斯结合后分类的结果进行了详细的分析与比较。实验表明,改进了局部加权学习的距离函数有效的提高了局部加权算法的效率和可靠性。最后,总结本研究的成果与不足,并提出今后模型改进的方向,有利于解决数据挖掘中的实际应用问题。