专利信息采集及分析系统设计与开发

被引量 : 0次 | 上传用户:colawing1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利信息资源是首选的竞争情报资源,它蕴含着巨大的知识存量。充分挖掘和利用专利信息有助于技术人员改进现有技术,发现新的技术领域。然而当前专利数量急剧增长,依靠人工手段寻找有用专利信息,并进行快速有效的专利分析,犹如大海捞针般费时费力。国际上专利信息采集及分析的研究和相关软件很多,但大多数只关注英文专利,语种局限性很大;国内还没有针对本国专利的专利信息采集软件;在专利分析方面已经有很多研究成果,但都没提供针对专利无结构数据的分析功能。因此,本文以中国大陆地区专利为研究对象,研究专利信息的采集及分析技术。考虑到专利信息深藏于Web专利库中,一般的信息采集技术仅能获取公开可索引的数据,而无法深入Web后台数据库中提取信息。因此,采用包装器模型,设计开发专利信息的采集系统。规则库是包装器模型中最为关键部分,本文采用人工解析网页方式创建规则库,同时利用VC#中的Webbrowser控件调用规则库,自动解析网页提取数据。在信息采集过程中,由于网络的不稳定,会造成采集的信息不完整、采集进度难以控制,因此采用了定时刷新机制、网页下载完成事件及多线程机制等解决方案。此外还设计了线程调度中心,以解决没有控制机制的多线程程序容易陷入死锁的问题。对文本进行聚类分析,是专利分析的有效手段。本文探讨了基于文本聚类的专利信息分析技术。发明和实用新型等专利文献文辞冗长、文字晦涩,因此,首先研究专利词汇处理技术,提出了基于统计和规则的新词识别方法和新词释义方法。在此过程中,涉及频繁的词典访问,词典数据结构选取的好坏直接决定分析效率,本文提出Hash+索引+Map(set)的存储方法,提升了时间和空间上的效率。此外,针对技术专利文献结构规范的特点,还研究了专利文献的结构化分析技术。最后,依据“具有大量相同概念的文档是相似的”这一判断,采用文本聚类技术进行处理,借助凝聚算法和SOM网络完成专利的聚类过程。最后,设计实现了专利信息采集及分析系统,并以打火机为例,给出了专利信息采集和分析实例。
其他文献
<正>2007年,苏州市率先实现教育现代化,教育信息化发展主要指标位居全省前列,但也面临一些亟需解决的问题。鉴于此,苏州市发布教育信息化五年行动计划,明确提出要紧扣国家三
文章分析了区域教育信息化背景下"智慧教育"构建的基础与背景,提出在云计算理念指导下构建区域"智慧教育"的定位与目标,创新构建的方法与策略,并对构建的实效进行评价。
自身免疫性肝炎(autoimmune hepatitis,AIH)以血清转氨酶升高、循环中存在自身抗体、高γ-球蛋白血症、肝组织学特征性改变(界面性肝 炎、汇管区淋巴浆细胞浸润和玫瑰花结样
互联网时代给企业的人力资源管理带来了前所未有的机遇和挑战。文章站在理论与实践的前沿,指出了互联网时代具备的四大特征,并在此基础上提出了互联网时代人力资源管理的十种
写作声音一直以来是语言研究的热点课题。然而,目前国内外相关系统性研究数量不多,且在其特性及其与写作能力的关系等问题上存在诸多争议,因此亟需进一步的理论与实证支持。
本研究考察外语写长法在QQ空间的应用模式及其效果.并将其与传统写长法进行比较。研究对象为非英语专业一年级两个班级124名学生,分别实施QQ空间外语写长法训练(实验组)和正
本文根据皖江城市带上市公司所公布的数据,利用spss统计软件通过因子分析法上市公司综合竞争力模型,以期考察低碳背景下皖江城市带的发展情况,从而为相关政策的制定与实施提
<正>陈汉民,我国知名的平面设计家和设计教育家,1931年出生于上海,1955年开始在中央美术学院留校任教。陈汉民先生艺术之路延续了半个多世纪,众多的标志设计作品成为经典,同
<正>校训是学校制定的,要求师生共同遵守的行为准则和道德规范,是一所学校对其文化传统、文化精神的理性抽象和认同。大学校训是大学针对组织内部全体成员制定的具有导向、激
随着我国海洋石油开采业的发展,海底悬跨管线涡激振动的研究越来越受到重视。本文总结了海底悬跨管线涡激振动的实验研究与进展,对海底悬跨管线的涡激振动实验方法、测试技术