论文部分内容阅读
数据挖掘(Data Mining, DM)就是从大量数据中提取潜在有价值的知识和信息的过程,其核心技术涵盖了数据库技术、统计理论、计算机智能、机器学习等多个方面的知识。机器学习是数据挖掘技术的核心,优秀的机器学习算法能够极大的提高数据挖掘的性能和成效。支持向量机(Support Vector Machine, SVM)是建立在统计学习理论基础上的一种新的机器学习方法,与传统统计学习方法相比,支持向量机有效避免了维数灾难和过拟合等问题,具有求解速度快、预测精度高等优点,并具有较好的推广能力和解的全局最优性。本文围绕如何将支持向量机算法应用解决实际的数据挖掘问题这一目标,成功地将SVM算法应用于网络侧终端定位以及自动图像标注这两个领域:(1)将支持向量机应用于网络侧终端定位,具有较高的实用价值。为了解决现有定位方法中存在的问题,论文设计并实现了一种基于支持向量回归机(Support Vector Regression, SVR)与K近邻算法相结合的定位方案,分步结合了基于小区标识的定位方法、多值SVR算法以及K近邻算法,对定位精度和计算复杂度进行了折衷。实验结果表明,该方案以相对较低的计算复杂度获得了较高的定位精度。(2)自动图像标注是目前非常活跃并且充满挑战性的工作。支持向量机是目前统计学习理论效果最好、最实用的机器学习算法,但其不能直接用于处理多属性分类(Multiple Label Classification, MLC)问题;而K近邻算法能够很好的解决MLC问题,但复杂度较高。论文设计并实现了一种基于多分类SVM与K近邻算法分步结合的图像标注算法,利用SVM分类算法来缩小K近邻算法的搜索范围进而降低K近邻算法的复杂度。通过在标准图像测试集上的仿真测试,结果显示该方案使用了更多地标注词对图像进行标注,综合标注效果较好。