基于监督聚类的专利训练数据修剪研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chentongxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在一个信息爆炸的时代,各行各业积累了大量的,甚至是海量的数据。根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%~95%,世界每年的申请量以100多万件的速度递增,目前,累计总量已近4000万件,充分利用这些专利文献进行技术创新能够节约60%时间、节省40%的科研资金投入。每一件专利都会依据其内容被分类至某一个国际专利分类码(International Patent Classification,IPC)中。由于数据的规模大,完全依靠专家进行分类需要耗费大量的人力物力,这就促进了各种自动专利分类的研究的兴起。朴素贝叶斯,最近邻,决策树,以及支持向量机等已经应用到文本分类领域,并取得了一定的效果。然而,专利分类是一个大规模,不平衡,层次化以及多标号的文本分类问题,大多数的传统分类方法无法处理这样复杂的问题。即使是性能最好的分类器—支持向量机,由于其求解过程是一个二次规划问题,导致训练时间与训练样本个数接近平方级别的关系。因此,吕宝粮和他的合作者提出了最小最大模块化网络,它最显著的特点是并行的,模块化的结构。其基本思想是“分而治之”:将一个大规模问题,分解成一些独立的小规模问题,分别求解这些小规模问题,然后合并成大规模问题的解。本文的贡献在于,通过引进一种基于高斯零交叉函数最小最大模块化网络的监督聚类算法,来修剪训练数据的规模,并将其成功的应用到专利分类问题中去。文章的主要贡献在以下几个方面。1)分析了高斯零交叉函数最小最大模块化网络的特点:高度的模块化,可以输出“不知道”的能力和增量学习能力。2)分析了高斯零交叉函数最小最大模块化网络接收域的特点,根据此接收域,在学习过程中对训练样本进行聚类,去除冗余样本。3)在聚类后,可能有些聚类含有的样本数很少,这些样本点可能是噪声点。我们采用了噪声去除和聚类合并算法对样本进行后处理。4)我们在NTCIR-5专利数据库上进行专利分类的仿真实验,比较了在聚类和非聚类情况下的各项性能。实验结果证明,我们提出的聚类算法,可以去除冗余样本,并保证在较少的训练数据集下,保持甚至获得更好的泛化能力。5)通过仿真实验,我们也验证了高斯零交叉函数最小最大模块化网络具有的增量学习能力。
其他文献
随着计算机和互联网技术的快速发展,国内公司企业信息化的深化,电子文档在企业内部网和电子政务网中的广泛使用,纸质文档的数字化为文档信息的存储、处理和传播提供了极大的
网格是构建在互联网上的一种新兴技术,网格技术逐渐成为计算机领域近期研究的热点之一。电力行业目前存在着硬件资源利用率低,软件资源不统一,资源重复建设等问题。电力网格是解决这些问题的有利武器,网格技术应用于电力行业能大大提升电力服务性能。本文利用Globus Toolkit 4搭建网格仿真系统,为研究电力网格提供一个实验性环境。论文首先介绍了网格计算的基础知识,对网格体系结构做了详细介绍。分别介绍了系
伴随着计算机网络的普及和通讯技术的迅猛发展,网络信息已逐步成为当今社会发展的重要资源。网络互连一般采用TCP/IP协议,由于网络及其协议的设计者,在设计之初只考虑了效率
网格计算是为解决大规模资源密集型问题而提出的新一代计算平台,是当前并行和分布处理技术的一个发展方向,资源管理是计算网格的关键技术之一。然而,由于网格系统的分布性、
随着信息技术的发展,人类社会步入知识经济时代。对知识的管理已经成为企业管理的重要方面。本体的应用使得企业能够共享知识结构的标准化表示。有效的本体建模和实例检索方
本文在深入分析粒子群算法的缺陷及成因的基础上,引入了云理论、人工鱼算法,并提出扩张变异算子等方法,对粒子群算法进行改进,来提高算法的收敛速度和精度,有效克服了算法易
Domination问题是组合学中最具有代表性的一类判定问题,一般可分为:支配集问题,强支配集问题,独立支配集问题和联通支配集问题等。其中研究最多的是支配集问题。它和集合覆盖
在网络得到快速发展和应用的现代社会,代理签名的应用越来越广泛。例如:某总行授予所属支行签发电子货币的权利,让他们以总行的名义签发电子货币,而又不让他们获得总行的签发密钥
随着互联网技术和电子商务的飞速发展,各类企业都纷纷采用因特网和Web技术,将它们的主要服务搬到互联网上,以得到更强的自动性、更迅速的交易和更广阔的视野。SaaS(Software
随着数值计算技术的发展,使用数值模拟方法来制作引人注目的流体特效动画已在电影工业中成为一种趋势。在模拟计算中,小尺度的流体细节尤为重要,比如烟雾中的涡旋或是流沙中