基于IRPU算法的专利数据相似重复属性及记录检测方法

来源 :数字图书馆高层论坛2010年年会 | 被引量 : 0次 | 上传用户：myyiao123

【摘要】

：

为了保障数据质量，在进行数据分析之前必须进行数据清洗，而相似重复记录检测是数据清洗中的重要环节。以前的相关研究大多是领域无关的，本文面向专利数据领域，从专利文献自身的特

【作者】

：

雷孝平赵蕴华张泽玉郑佳

【机构】

：

中国科学技术信息研究所战略研究中心北京 100038

【出处】

：

数字图书馆高层论坛2010年年会

【发表日期】

：

2010年期

【关键词】

：

算法专利数据相似重复记录检测属性数据清洗专利文献专利分析相关研究数据质量数据分析实验结果识别精度检测方法需求特点环节保障

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了保障数据质量，在进行数据分析之前必须进行数据清洗，而相似重复记录检测是数据清洗中的重要环节。以前的相关研究大多是领域无关的，本文面向专利数据领域，从专利文献自身的特点及专利分析需求出发，认为专利中相似重复属性的检测与相似重复记录的检测同样重要，提出了基于IRPU算法的专利数据相似重复属性及记录检测方法。实验结果表明，该方法适用于专利数据领域，具有较高的识别精度。

其他文献

面向技术趋势图谱生成的专利文本挖掘研究

由于当前技术创新对国家、行业和企业等各个层面都具有重要意义，专利作为技术创新的一个信息载体得到了各方的重视，基于专利的情报分析、尤其是基于专利文本内容分析的专利挖掘

会议

基于文献共被引关系的协同过滤文献推荐系统

数字图书馆的文献数量和种类高速增长。数字图书馆用户需要有效个性化推荐工具解决信息过载问题，以帮助其在众多文献中发现对其有价值的文献。稀疏性问题是目前个性化推荐系统

会议

吉西他滨联合奥沙利铂治疗老年非小细胞肺癌58例

[目的]评价老年晚期非小细胞肺癌(NSCLC)患者吉西他滨联合奥沙利铂化疗的疗效及耐受性。[方法]以吉西他滨联合奥沙利铂治疗老年晚期NSCLC58例,观察其化疗疗效、生活质量、不

期刊

复治者非小细胞肺初治者化疗疗效非血液学毒性豪森药业白细胞减少不良反应

全国电力行业粉尘危害调查技术总结会(东北片)会议纪要

由中电联主持召开的电力系统粉尘危害调查技术总结会(东北片)于1998年1月8日至1月9日在辽宁省铁岭发电厂召开.各电管局、部分直属省电力局、东北电管局所属三省电力局和部劳

期刊

粉尘危害东北片调查技术中电联会议纪要国家电力公司铁岭发电厂宗鹤粉尘浓度运部

基于叙词表的领域本体构建系统设计

本文在对当前本体构建技术及本体学习方法进行深入研究的基础上，设计并实现了基于叙词表的领域本体自动构建系统。该系统将叙词表的本体转换技术以及本体学习中关系获取的技术

会议

近5年来我国知识组织系统研究热点探析

通过查阅相关期刊论文数据库、有关出版物及相关网站，对2005以来的国内知识组织研究热点进行深入总结与分析，将其归纳7个专题，主要有：关于分类法、叙词表、本体、概念地图、简单

会议

国外专业领域知识组织模式研究

在数字化科研环境中，如何更好地支持和帮助科研人员，对专业领域内数量巨大的各种类型的综合性信息资源进行描述、组织、集成和建设，成为了亟待解决的问题。论文通过分析和研究欧

会议

专业领域知识组织综合科技资源

新一代文献服务体系中语义导航架构的研究与实践

在语义Web环境下，要求文献服务体系具有支撑科研创新相关活动的语义性功能，向科研创新主体定制化地提供关联的信息，满足用户在科研创新活动全部过程中对文献资源的语义化需求。

会议

基于知识组织系统的相关文献检索及发展趋势

在对相关文献检索进行分类的基础上，分析其在具体实现过程中涉及到的关键技术，着重介绍了典型系统的文本相似计算方法，最后在重点论述相关文献检索未来发展趋势时，尝试提出“相关

会议

相关文献文本相似度计算自动标引文献相关性数据库相关知识

基于MeSH的语义相似度计算研究

词语语义相似度可用以对不同关联程度的词语进行区分，是信息处理技术中的一个关键问题。本文在Rodriguez和Egenhofer提出了语义相似度计算模型基础上，结合医学领域主题词表MeSH

会议

MeSH语义相似度相似度计算模型相似度计算方法信息处理技术主题词表医学领域结果表现关联程度关键问题词语特点实验基础

基于IRPU算法的专利数据相似重复属性及记录检测方法

与本文相关的学术论文