应用文本挖掘分析生物医药领域专利热点的方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:sharethesun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数据的统计分析也变得尤为重要。   本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种方法,利用已有的分词工具把近二十年的USPTO的生物医药领域共15415条专利的标题进行分词,然后通过人工清洗,删除那些无关词、词频很高但是不具代表性的词、和大量的停用词等处理形成词库,利用DEIPHI语言编写软件,计算每个词在每条专利中的TF-IDF值,并通过设定TF-IDF值和每个词在专利中出现的词频数共得到样本数据890条专利和312个词,在Excel中通过VBA构建了一个多维度相似度矩阵并导入Spss Clementine软件中通过K-means算法进行聚类,将获得的5个聚类结果与IPC及USPC分类的结果进行横向比较,分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。   从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不同IPC或USPC类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的
其他文献
政府信息公开在处理突发事件时起着至关重要的作用,政府及时向社会发布突发事件信息,让社会公众第一时间知晓突发事件真相,一方面有利于突发事件中公众压力的缓解,使公众趋利
期刊
伴随着信息技术的飞速发展,人类的知识空前浩繁,人类正在全面进入一个崭新的时代——信息时代。知识经济的繁荣彻底颠覆了传统的知识管理方式,使人类在浩瀚的知识海洋面前无所适
本文从学术史的角度,围绕总百家之绪、溯学术之源、明簿录之体三个层面,论述了<汉书·艺文艺>的学术史意义.
从2007年年初以来,加元走势令市场震惊。从美元兑加元的汇率走势看,此货币对自去年3月份1.18高点开始大幅下跌,并在11月份跌至加元自由浮动以来的最低水平0.90附近后,后又立
社区卫生服务是目前世界范围内卫生领域的一大进步和创举。然而,在信息化时代中,社区卫生服务的发展面临着新的挑战。人们对社区卫生服务质量提出了更高的要求。而目前我国的社区卫生服务条件无法满足人们的需求。为此,我国正在逐步推进社区卫生服务改革。社区卫生服务信息化是我们改革的目标和动力。它有诸多无可比拟的优点,它通过利用先进的信息化设备和手段,把原本有限的医疗资源进行整合和重新组织,充分发挥资源有效性。新
档案信息资源建设在档案信息化工程中居于核心地位,而档案信息资源建设的管理在建设成果形成中起着关键的作用。各级各类档案馆是资源建设的主体,承担着主要的建设工作和任务
药品安全问题关系到人民群众的生命健康,关系到国家的长治久安与可持续发展。多年来我国政府高度重视药品安全问题,为建立健全完善的药品安全与保障体系进行了一系列探索与努
信息技术的发展,使各行各业对技术技能型人才的需求越来越大,中国高等职业教育也越来越受到重视。高职高专院校图书馆在学校为社会培育技术技能型人才方面担负着潜移默化的力量
摘 要:路基工程施工应保障路基的每一个层面都被压实,维护正常的强度与稳定性,一般会利用碾压压实作业达成相关程序,把冲击碾压技术科学应用在路基工程活动中,而借助这一技术如何全面发挥施工工艺自身的水平是工程操作中应考量的主要内容。在本文中,将重点探究这一技术,首先对冲击碾压进行概述,然后探究冲击碾压技术。  关键词:公路路基;冲击碾压;运用  中图分类号:U416.1 文献标识码:A 文章编号:100