论文部分内容阅读
我们生活在一个信息爆炸的时代,各行各业积累了大量的,甚至是海量的数据。根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%~95%,世界每年的申请量以100多万件的速度递增,目前,累计总量已近4000万件,充分利用这些专利文献进行技术创新能够节约60%时间、节省40%的科研资金投入。每一件专利都会依据其内容被分类至某一个国际专利分类码(International Patent Classification,IPC)中。由于数据的规模大,完全依靠专家进行分类需要耗费大量的人力物力,这就促进了各种自动专利分类的研究的兴起。朴素贝叶斯,最近邻,决策树,以及支持向量机等已经应用到文本分类领域,并取得了一定的效果。然而,专利分类是一个大规模,不平衡,层次化以及多标号的文本分类问题,大多数的传统分类方法无法处理这样复杂的问题。即使是性能最好的分类器—支持向量机,由于其求解过程是一个二次规划问题,导致训练时间与训练样本个数接近平方级别的关系。因此,吕宝粮和他的合作者提出了最小最大模块化网络,它最显著的特点是并行的,模块化的结构。其基本思想是“分而治之”:将一个大规模问题,分解成一些独立的小规模问题,分别求解这些小规模问题,然后合并成大规模问题的解。本文的贡献在于,通过引进一种基于高斯零交叉函数最小最大模块化网络的监督聚类算法,来修剪训练数据的规模,并将其成功的应用到专利分类问题中去。文章的主要贡献在以下几个方面。1)分析了高斯零交叉函数最小最大模块化网络的特点:高度的模块化,可以输出“不知道”的能力和增量学习能力。2)分析了高斯零交叉函数最小最大模块化网络接收域的特点,根据此接收域,在学习过程中对训练样本进行聚类,去除冗余样本。3)在聚类后,可能有些聚类含有的样本数很少,这些样本点可能是噪声点。我们采用了噪声去除和聚类合并算法对样本进行后处理。4)我们在NTCIR-5专利数据库上进行专利分类的仿真实验,比较了在聚类和非聚类情况下的各项性能。实验结果证明,我们提出的聚类算法,可以去除冗余样本,并保证在较少的训练数据集下,保持甚至获得更好的泛化能力。5)通过仿真实验,我们也验证了高斯零交叉函数最小最大模块化网络具有的增量学习能力。