论文部分内容阅读
随着信息技术的快速发展,数据的产生、获取和积累变得十分简单快捷。为此,如何高效地从海量数据中发现有价值且易于被用户理解和使用的信息和模式,成为了一个十分重要而紧迫的问题。本文对如何通过二次学习风范提高学习系统的可理解性进行研究,取得了以下成果: 1.提出两种新的二次学习算法C4.5Rule-PANE-rd和C4.5Rule-PASV。现有的二次学习算法假定样本在特征空间中服从均一分布并采用集成学习器作为第一阶段的分类器。C4.5Rule-PANE-rd算法修改了样本的生成算法,使得第二阶段的训练样本更加接近原始分布。同时,本文提出采用支持向量机作为第一阶段分类器的C4.5Rule-PASV算法。实验结果表明,新算法在泛化能力和可理解性方面均有提高。 2.提出基于间隔理论的二次学习算法C4.5Rule-TOOLS。该算法的泛化能力可以由间隔理论的泛化错误率上界来保证。实验表明,C4.5Rule-TOOLS算法不仅有效提高了分类性能,还由于大幅减少了生成规则的数量而显著提高了输出规则的可理解性。 3.将提出的二次学习算法应用于心理学数据分析。实践证明,本文提出的二次学习算法均能有效地从心理学数据中发现泛化能力强、可理解性好的模式,这表明了二次学习算法在心理学研究领域具有广阔的应用前景。