论文部分内容阅读
随着信息技术和信息网络的飞速发展,从大量数据中挖掘出有用知识的数据挖掘已成为具有重要意义的研究领域。支持向量机(support vector machine)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。虽然统计学习理论(SLT)有比较坚实的理论基础和严格的理论分析,但是其从理论到应用还有很多尚未得到充分研究和解决的问题。例如,目前该领域的相关研究大多是试图设计某种分类器,使其对未来所有可能样本的预期性能最优,而在很多实际问题中,没有可能也没有必要用这样一个分类器对所有可能的样本进行识别,而往往只需要对一些特定的样本进行识别。于是可以考虑设计这样一种更为经济的分类器,用它来建立一种直接从有标签样本出发对特定的无标签样本进行识别和分类的方法和原则。相对于传统的归纳推理方式,这种推理方式被称为直推式学习(transductive inference)。直推式学习试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则。渐进直推式支持向量机学习算法(progressive transductive support vector machine,PTSVM)可以较好地适应各种不同的训练样本分布,实现了较一般意义上的直推式学习。本文针对PTSVM中的区域成对儿标注法学习过程不自然且易出错和标签重置法纠错能力不强的缺陷,提出了一种改进的基于Cache的渐进直推式支持向量机学习算法。该算法用值域成对儿标注法和Cache纠错法分别取代了PTSVM中的区域成对儿标注法和标签重置法,不仅大大减少了错误标记的次数,提高了算法的速度和准确度,而且消除了PTSVM算法的死循环现象。通过UCI的Wisconsin Breast cancer和CWH03a的Svmguide3两个数据集的实验,表明该算法是有效的。将本文改进的基于Cache的渐进直推式支持向量机学习算法应用于大连市公安局警务综合应用平台的全文检索系统,显著提高了信息检索的准确性,提高了工作效率。同时由于本文给出的系统的设计和实现方案具有通用性,对不同领域的检索系统的实现具有一定的指导意义。