专利分析中的文本聚类算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:winterzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利信息反映了最新的科技发展水平,具有内容新颖、覆盖面广、实用可靠、信息量大等显著优点,对于国家政府机构的决策、科技项目的规划、技术创新资源的配置、行业的发展方向、企业的经营决策等各方面都体现着巨大的价值。传统的统计定性分析方法已经不能满足人们开发利用专利信息资源的方法需求,集成了多种学科技术的数据挖掘成为了专利信息分析法的必然发展趋势。由于专利信息的文本性,作为数据挖掘技术手段之一的文本聚类有着非常广泛的应用前景。 文本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。k-means算法由于操作简单、容易实现且时间效率高等优点是一种最常见经典的文本聚类算法。而且,对初始值的依赖性和对噪声数据的敏感性等不足使得k-means算法的改进研究具有很大的发展空间。 本文采用了创新计算动力学及其联想组合定律作为k-means算法研究的指导思想,提出了两种不同的改进算法。一种是基于对立联想组合创新模式的k-means算法组合,即通过一种用于优化聚类结果的局部搜索算法将两种分别采用不同相似度计算公式的k-means算法串联组织起来,使得先运行的k-means算法和局部搜索算法尽可能为后运行的k-means算法提供较好的初始划分结果,取长补短;另一种是基于信息域组合创新模式的k-means算法改进,即通过定义一种距离公式用于计算数据对象与聚类中心的相对距离,在划分过程中动态调整聚类中心,降低了算法对初始值的依赖性和对噪声数据的敏感性,提高了聚类质量。
其他文献
随着信息技术不断应用于军事领域,现代战争模式正逐渐从机械化模式向信息化模式转换。信息战将是20世纪末到21世纪初军事技术革命的集中体现,作为信息战核心的信息技术正奇迹般
21世纪是信息网络的世界,信息技术和网络空间,给社会的经济、科技、文化、教育和管理的各个方面注入了信息的活力,网络已经成为了人们日常生活不可缺少的一部分。但随着互联网应
随着科学技术的飞速发展,知识呈爆炸式增长,人们需要掌握的知识和技能越来越多,如果继续按照原来的学习方式,势必会落后于社会的发展,被社会所淘汰,因此学习者需要提高自身的学习能
当前,基于Web服务的分布式应用(如电子商务与电子政务)得到了快速的发展,而典型的Web服务正面临着各种新的安全问题,传统的安全保护方法已无法胜任。在服务使用者访问Web服务之
通信技术的进步,网络的发展,各个领域与互联网的联系越来越紧密。一方面,行业对信息的需求量越来越大,越来越专业,希望从搜索引擎返回的尽量是领域相关的信息:另外一方面,任何用户都
在人类感知到的环境信息中视觉信息占了绝大部分,其中动态视觉更是主要部分。视频运动对象检测已经成为计算机视觉等领域研究的主要内容,只有检测并分割出比较完整的运动对象才
本文给出了一种全新的软件模式一“格件模式”。格件模式试图建立一种基于状态的非过程化的软件开发方法,包括相应的开发工具与环境,以支持用户以资源融合的观点,以及自相似和增
随着计算机网络和Internet的不断发展,电子商务、电子政务等基于Internet的网络增值应用也得到迅速发展,这些应用对信息安全的需求也随之提升。企事业也对无纸办公的要求日益强