论文部分内容阅读
随着科学技术的不断发展,越来越多的信息涌入人类的生产生活中,与此同时夹杂在其中的不确定信息也日渐增多,如何从这些庞大而复杂的数据中获取有效信息成为了信息技术发展中的一项巨大挑战。尤其在模式识别问题中,不确定数据的增加大大提升了解决问题的难度。例如在机器学习领域中,手写数字识别作为热门话题一直受到广泛关注。在该问题中,研究者们可以获得大量的数据信息作为训练样本,而这其中的大部分数据都由于存在着不精确、不可靠等情况而具有或多或少的认知不确定性。工程实践中解决此问题的办法多是通过对训练样本进行人工标注的方式来获取精确训练集,然而无论是类标的手动添加亦或是待标注样本的选择都需要人工参与,人力成本会随着数据的增加而增多。如何有效处理不确定信息以及应用不确定信息完成分类器的学习与构建成为众多研究者亟待解决的难题。信任函数理论凭借其可以灵活处理多种不确定性的出众能力,近些年来受到了广泛的关注,在工程、医学等众多方面得到了广泛的应用。与传统的信息融合、证据推理方向不同,2008年信任函数在统计推断方向上的应用为信任函数理论的研究带来了更广阔的方向。在此基础上,一部分研究者率先进行了该理论与机器学习方法的结合,打破了该领域的空白,并取得了不错的成果。本文在前人的足迹上继续前行,将信任分类树与Bagging集成算法相结合,通过质量函数完成对认知不确定的建模,并通过集成一系列结构简单的信任分类树得到最终的集成分类器。其中,作为基分类器的信任分类树是在输出含有不确定的样本上直接训练得出的。与此同时,考虑到当下大部分不确定分类算法均未涉及实际应用,本文分别应用提出的BGBC4.5算法与其他常用不确定分类算法完成不确定手写数字识别问题,并取得了满意的识别精度。文章直接在输出含有大量认知不确定性的训练集上完成分类器训练,分析讨论算法数据质量及几种不确定程度变化下的表现结果以及与其他常用分类算法表现的对比,分析了各个算法的优劣性、验证了算法的优越性。