论文部分内容阅读
随着信息技术的不断发展,数据信息逐步呈现海量、多样、非结构化的特点。而传统的数据库技术已不能够对这些复杂数据进行有效的管理,新的数据管理模式——数据空间应运而生,其不但可以支持文档、Web等多种不同的异构数据源,而且具有集成演化的特性,强调数据之间的关联性及演化性。而专利文献中含有丰富的结构化信息及非结构化信息,本文选取海量专利数据进行分析,挖掘专利间潜在的技术关联关系并以此发现新颖专利。由于专利文献中引文的缺失以及作者引用动机难以判断,因此,不能直接使用引用关系作为专利技术关联的评价指标。针对这一问题,本文构建了专利间综合语义相似度模型,用以评估专利间的技术关联。首先,根据专利文献中包含的专利作者、IPC专利分类号等结构化信息分别构建了专利作者相同关系矩阵WA和基于IPC专利分类号共类关系矩阵WC;然后,针对专利标题、摘要、权利说明书等文本信息构建专利文本相似度矩阵Ws,最后,进行多维融合构建综合语义相似度模型。接下来,引入时序因素并结合专利间综合语义相似度模型构建专利世系关联网络,根据专利数据世系分析相关技术的演化路径,以此来对专利价值进行评估,并挖掘新颖专利。首先利用专利世系关联网络中专利间潜在的直接或间接被引关系,综合考量专利价值随时间指数衰减因素及潜在的直接或间接被引的专利对专利价值的贡献度,提出专利价值评估算法;由于新加入的专利对原有专利世系关联网络中的专利的价值影响,为节省大量重复计算的时间,最后提出专利价值动态更新算法,当在T+1时刻新加入的专利与原有T时刻的专利存在潜在技术关联时,其价值为所有的邻接点的价值传递度之和,从而提高算法的计算效率。最后,使用专利数据集进行相关实验,经实验结果对比分析验证了专利综合语义相似度模型的准确性以及专利价值动态更新算法的高效性。