论文部分内容阅读
随着科学技术的迅猛发展,对于技术现状的调查、技术未来发展趋势的预测以及竞争对手的技术发展情况等越来越受到各国家、行业和企业的关注。而在开展技术监测、技术预见等工作时常常需要对专利进行深入的分析,因此,设计合适的分析方法以很好的支持专利分析在相关工作中的应用成为目前需要研究和突破的重点。
通过对专利分析研究现状进行深入学习之后发现目前国内专利分析实施的主要问题是数据清洗耗费资源多和数据分析中需要对专利按照技术特点进行归类的难度大。针对上述两个问题,本文提出了用专利自动分类的方法进行处理,即通过专利分析的方法在数据清洗中寻找孤立点和在数据分析中对专利自动分类的设想。为了验证这个设想,本文深入研究了文本分类和专利自动分类的现有成果,结合《知网》语义相关性算法的主要思想,提出了一种基于树型IPC的专利自动分类算法,并在通过C++语言实现这个算法的基础上,对算法的参数设置和阈值的选择方法进行了讨论。最终对算法实施效果的评估结果为:在专利数据清洗中平均准确率为0.79-0.80,召回率为0.91-0.92;在数据分析中平均准确率为0.99,召回率为0.98,基本达到了研究的预期要求,证明可以在实际分析项目中应用。