论文部分内容阅读
我国的中小型企业量大面广,对我国经济发展有重要贡献,但员工技术水平低、缺乏创新能力等问题导致中小型企业寿命普遍较低。而我国高校中的一些先进的研究成果也没有得到实际应用,产生相应的社会效益。针对此现象,实验室成员计划通过建立以促进校企合作为主题的网络平台,使企业能得到相关领域专家的技术支持。本课题中将以企业提出的技术需求文本为分类对象设计并实现一个文本分类器,将企业技术需求划分到工科一级学科的类别下,作为此网络平台推荐功能的依据因素之一。文本分类作为自然语言处理领域的重要技术,逐渐成为人们的重点研究对象。目前,文本分类的相关技术已取得大量显著的研究成果,但多数是针对中文分词技术以及分类算法的研究与改进,对特征提取技术的研究偏少。因此,本文将特征提取算法作为主要的研究点,提出了两种改进的基于LDA的特征提取算法,旨在降低空间向量的维数的同时能获取更优的分类效果。本课题的研究背景较特殊,现有的文本分类器以及分类语料库(数据集)都不满足上述应用条件,这对于本课题而言,是巨大的挑战。本文的主要工作如下:(1)通过网络爬虫获取万方数据库的论文摘要,构建出符合课题背景中分类体系的分类实验语料库。文中也使用标准的分类实验语料库(搜狗新闻语料库)和自建语料库对比实验并分析实验结果,以验证本文提出的改进的基于LDA的特征提取算法的通用性。(2)使用中科院分词系统ICTCLAS分词系统和结巴分词对语料库中文本进行分词对比实验,根据分词结果的分词粒度大小选择出结巴分词完成文本的分词处理,并对分词性能进行测试。(3)为使文本分类器取得较优的分类效果,将LDA主题模型应用到文本分类的特征提取阶段,并提出了两种新的基于LDA主题模型的特征选择方法(即LDA_SD和LDA_WORD)。同时,也实现两种传统的特征选择方法MI和DF,和上述三种较为新颖的特征选择方法进行对比分析实验。(4)本文中对比测试了KNN、NB和SVM三种分类算法基于不同特征提取方法结果的分类效果,选择具有最优分类效果的分类算法实现分类器的核心模块。本文设计并实现了企业技术需求文本分类器,实验结果表明该分类器具有较优的分类效果,但实际应用效果还需进一步验证。根据实验测试结果,特征提取方法LDA具有最优的特征降维性能,分类效率极高,分类精度相对略差;本文中提出的改进的基于LDA的特征提取方法LDA_WORD具有最高的分类精度。这两种特征提取方法各有优势,可分别应用于不同需求的场合。