基于IRPU算法的专利数据相似重复属性及记录检测方法

来源 :数字图书馆高层论坛2010年年会 | 被引量 : 0次 | 上传用户:myyiao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了保障数据质量,在进行数据分析之前必须进行数据清洗,而相似重复记录检测是数据清洗中的重要环节。以前的相关研究大多是领域无关的,本文面向专利数据领域,从专利文献自身的特点及专利分析需求出发,认为专利中相似重复属性的检测与相似重复记录的检测同样重要,提出了基于IRPU算法的专利数据相似重复属性及记录检测方法。实验结果表明,该方法适用于专利数据领域,具有较高的识别精度。
其他文献
由于当前技术创新对国家、行业和企业等各个层面都具有重要意义,专利作为技术创新的一个信息载体得到了各方的重视,基于专利的情报分析、尤其是基于专利文本内容分析的专利挖掘
会议
数字图书馆的文献数量和种类高速增长。数字图书馆用户需要有效个性化推荐工具解决信息过载问题,以帮助其在众多文献中发现对其有价值的文献。稀疏性问题是目前个性化推荐系统
[目的]评价老年晚期非小细胞肺癌(NSCLC)患者吉西他滨联合奥沙利铂化疗的疗效及耐受性。[方法]以吉西他滨联合奥沙利铂治疗老年晚期NSCLC58例,观察其化疗疗效、生活质量、不
由中电联主持召开的电力系统粉尘危害调查技术总结会(东北片)于1998年1月8日至1月9日在辽宁省铁岭发电厂召开.各电管局、部分直属省电力局、东北电管局所属三省电力局和部劳
本文在对当前本体构建技术及本体学习方法进行深入研究的基础上,设计并实现了基于叙词表的领域本体自动构建系统。该系统将叙词表的本体转换技术以及本体学习中关系获取的技术
会议
通过查阅相关期刊论文数据库、有关出版物及相关网站,对2005以来的国内知识组织研究热点进行深入总结与分析,将其归纳7个专题,主要有:关于分类法、叙词表、本体、概念地图、简单
在数字化科研环境中,如何更好地支持和帮助科研人员,对专业领域内数量巨大的各种类型的综合性信息资源进行描述、组织、集成和建设,成为了亟待解决的问题。论文通过分析和研究欧
在语义Web环境下,要求文献服务体系具有支撑科研创新相关活动的语义性功能,向科研创新主体定制化地提供关联的信息,满足用户在科研创新活动全部过程中对文献资源的语义化需求。
会议
在对相关文献检索进行分类的基础上,分析其在具体实现过程中涉及到的关键技术,着重介绍了典型系统的文本相似计算方法,最后在重点论述相关文献检索未来发展趋势时,尝试提出“相关
词语语义相似度可用以对不同关联程度的词语进行区分,是信息处理技术中的一个关键问题。本文在Rodriguez和Egenhofer提出了语义相似度计算模型基础上,结合医学领域主题词表MeSH