数据空间中基于数据世系的关联关系获取方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:YING1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据信息逐步呈现海量、多样、非结构化的特点。而传统的数据库技术已不能够对这些复杂数据进行有效的管理,新的数据管理模式——数据空间应运而生,其不但可以支持文档、Web等多种不同的异构数据源,而且具有集成演化的特性,强调数据之间的关联性及演化性。而专利文献中含有丰富的结构化信息及非结构化信息,本文选取海量专利数据进行分析,挖掘专利间潜在的技术关联关系并以此发现新颖专利。由于专利文献中引文的缺失以及作者引用动机难以判断,因此,不能直接使用引用关系作为专利技术关联的评价指标。针对这一问题,本文构建了专利间综合语义相似度模型,用以评估专利间的技术关联。首先,根据专利文献中包含的专利作者、IPC专利分类号等结构化信息分别构建了专利作者相同关系矩阵WA和基于IPC专利分类号共类关系矩阵WC;然后,针对专利标题、摘要、权利说明书等文本信息构建专利文本相似度矩阵Ws,最后,进行多维融合构建综合语义相似度模型。接下来,引入时序因素并结合专利间综合语义相似度模型构建专利世系关联网络,根据专利数据世系分析相关技术的演化路径,以此来对专利价值进行评估,并挖掘新颖专利。首先利用专利世系关联网络中专利间潜在的直接或间接被引关系,综合考量专利价值随时间指数衰减因素及潜在的直接或间接被引的专利对专利价值的贡献度,提出专利价值评估算法;由于新加入的专利对原有专利世系关联网络中的专利的价值影响,为节省大量重复计算的时间,最后提出专利价值动态更新算法,当在T+1时刻新加入的专利与原有T时刻的专利存在潜在技术关联时,其价值为所有的邻接点的价值传递度之和,从而提高算法的计算效率。最后,使用专利数据集进行相关实验,经实验结果对比分析验证了专利综合语义相似度模型的准确性以及专利价值动态更新算法的高效性。
其他文献
用计算机去真实再现烟雾等自然现象一直是计算机图形学中最具有挑战性的研究方向之一。计算机图形学研究者们常采用基于粒子系统的方法和基于物理模型的方法这两种方法去实现
海量的自然场景图像需要被快速检索、分析,这要求能够快速准确的对这些图像进行自动图像分割。由于自然场景图像具有光照不确定、背景复杂等特点,使得自然场景图像的分割成为
随着互联网技术的高速发展,计算机网络给人们工作和生活带来了前所未有的便利。同时网络安全事件发生频率越来越高,其中恶意代码攻击事件日益突出,给人们的数据安全带来极大
随着经济、社会的发展,人民群众休闲娱乐需求日益扩大,娱乐场所随之日益增多,然而这些场所确实存在许多安全隐患。2008年9月,深圳某歌舞厅特大火灾造成43人死亡、50余人受伤,再次
虚拟仪器软件体系结构(Virtual Instrumentation Software Architecture,简称VISA)是标准化的I/O函数库及相关规范的总称,它屏蔽了用户对于硬件接口的直接操作,是计算机与仪
随着计算机硬件以及其外围设备的飞速发展,如何逼真的模拟自然景物,成为图形学领域中最具有挑战性的研究方向之一。目前为止,非常逼真的流体可以加入到具有真实感的交互式应
细分方法因其与传统样条方法相比有多方面的优势,已经在科学计算可视化、计算机动画、医学图像处理和工业制造逆向工程等领域得到广泛重视和应用,成为一种流行的离散化的曲线曲
随着经济社会的高速发展和城市化水平不断提高,各类突发公共事件造成的影响和波及范围也越来越大,如何合理配置应急资源,在突发事件发生后提供快捷的紧急救助服务,最大限度发
社会医疗保障制度作为一项关系到国计民生的制度,一方面在保障全体劳动者健康,免于伤病威胁方面发挥了重要的作用;另一方面,由于医疗过程缺乏有效的行为规范和标准化,违规现
随着信息化建设的迅速发展,越来越多的应用需要访问多种异构数据源。这些数据源由于地理位置分布不同、所处平台及操作系统不同、采用的数据库模式不同、数据语义表示的不同