论文部分内容阅读
专利文献不仅仅是创新的结果,更是利用其进行再创造的知识源泉。参考利用其中包含的高科技信息可促进对产品的改良或创新。为了方便创新设计者从分布过于杂乱的信息资源中获取有效的信息,可以使用处理大量文本数据的文档分类技术。目前流行的专利分类标准都是依据专利应用所涉及的领域而划分的,并且划分的标准太宽泛,不利于用户有效地找到需要的技术信息。而TRIZ理论使用者希望了解专利应用解决了何种技术矛盾以及使用了哪些发明原理。TRIZ体系中的40条发明原理是指导设计方向的重要依据,而现有专利则为这些原理提供了丰富的知识参考和价值。 因此,本文研究和探讨的专利自动分类就是根据上述TRIZ发明原理。TRIZ原始的发明原理过于抽象以及有些原理之间有重叠,文中对40个原始的发明原理以系统进化变换的角度进行重组,形成20个新的类别。专利自动分类是一类典型的多标签分类问题,分类一篇专利文本输出一个标签集合。文中从Pro_Techniques和CREAX两个计算机创新辅助软件中收集了针对发明原理进行具体解释的专利数据,并依据收集到的621篇专利文件数据集对问题转换和自适应算法两类多标签分类算法进行对比分析。采用海明损失、测度等评估特性评估了上述算法的性能和质量。结果表明,在使用TRIZ专利数据集时,问题转换方法分类性能要明显优于自适应算法。