论文部分内容阅读
面对海量专利数据的分类,传统的手工分类方式已经无法满足人们的需求,因此如何实现专利快速有效的自动分类,成为专利分析处理工作的关键问题。在现有的专利自动分类技术的基础上,本文就中文专利自动分类中特征选择算法以及特征加权算法两个方面的问题开展研究。在对中文专利文本进行特征选择时,本文提出在信息增益算法的基础上,引入词频加权因子以突出词频因素对于特征选择的作用;引入类间分散度加权因子以强调类间分布因素对于特征选择的影响,引入调节因子以降低处理不均衡专利数据集时不出现的特征词的负面影响。在计算特征权