论文部分内容阅读
随着金融市场的全球化发展以及计算机网络技术的广泛应用,全球金融市场已经开始走向金融网络化。与此同时,互联网业已成为企业、机构和个人获取金融信息的主要来源;作为专业金融信息服务提供商或是个人,在面对如此海量、繁杂的互联网金融信息资源时不可避免会遇到一个巨大的挑战,即如何从互联网中实时、快速地分类和处理金融数据,如何提高Web金融数据获取效率和质量,从而改善公司金融信息服务质量,提升公司在金融信息服务行业的核心竞争力,这也成为当今学术界研究的重点问题之一。随着信息技术和通讯技术的发展,自动信息分类技术已经成为人们有效的金融信息分类工具。当今,Web文本分类的中文信息处理是一个重要的研究领域。其目标是分析文本内容的基础上,分配一个文本到更合适的类别,以便提高文本检索应用程序的处理效率。目前有许多方法应用到此技术中去。目前,K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一。KNN算法也是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统的KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决这个问题,人们利用粗糙集对高维文本信息进行属性约简,删除冗余属性。现在相继有了一些粗糙集和KNN的混合分类方法,主要是在属性约简方面去做研究。虽然效率上比传统的单一的KNN算法在分类效率上有了很大提高,但是仍有很大的改进空间。于此,本文在基于粗糙集和KNN算法的基础上,将给出一种基于粗糙集的KNN分类系统模型和结合金融环境下的分类应用系统。在模型和系统中,我们将引入一种改进型分明矩阵的约简方法来约简属性,并采用一种改进型的CHI和模式聚合方法来处理特征提取阶段,这样使特征向量的个数大大的有效约简,减少分类阶段的数据输入量,从而提高整个分类系统的分类效率,降低分类系统的时间和空间复杂度。在本文中,我们还通过实验结果与分析,说明了这种基于粗糙集的KNN改进的分类算法比目前一般的基于粗糙集的KNN分类算法,在分类效率上有了很大的提高。本文在分析Web文本挖掘与Web文本分类的研究现状和存在问题的基础上,主要研究了Web文本分类关键技术、方法和基于粗糙集和KNN的混合Web文本改进分类算法。本文的主要工作包括一下内容:(1)介绍Web挖掘、Web文本挖掘、Web文本分类、粗糙集的基础理论和相关知识,介绍Web文本分类过程中的关键技术。(2)给出结合粗糙集与KNN的Web文本分类系统模型。(3)给出一种基于粗糙集的分明矩阵改进约简算法。(4)给出一个基于CHI方法的特征提取和模式聚合方法的KNN改进算法。(5)给出金融环境下的Web文本分类系统,及其实验结果与比较分析。