企业技术需求文本分类器的设计与实现

来源 :东南大学 | 被引量 : 1次 | 上传用户:goldsir1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国的中小型企业量大面广,对我国经济发展有重要贡献,但员工技术水平低、缺乏创新能力等问题导致中小型企业寿命普遍较低。而我国高校中的一些先进的研究成果也没有得到实际应用,产生相应的社会效益。针对此现象,实验室成员计划通过建立以促进校企合作为主题的网络平台,使企业能得到相关领域专家的技术支持。本课题中将以企业提出的技术需求文本为分类对象设计并实现一个文本分类器,将企业技术需求划分到工科一级学科的类别下,作为此网络平台推荐功能的依据因素之一。文本分类作为自然语言处理领域的重要技术,逐渐成为人们的重点研究对象。目前,文本分类的相关技术已取得大量显著的研究成果,但多数是针对中文分词技术以及分类算法的研究与改进,对特征提取技术的研究偏少。因此,本文将特征提取算法作为主要的研究点,提出了两种改进的基于LDA的特征提取算法,旨在降低空间向量的维数的同时能获取更优的分类效果。本课题的研究背景较特殊,现有的文本分类器以及分类语料库(数据集)都不满足上述应用条件,这对于本课题而言,是巨大的挑战。本文的主要工作如下:(1)通过网络爬虫获取万方数据库的论文摘要,构建出符合课题背景中分类体系的分类实验语料库。文中也使用标准的分类实验语料库(搜狗新闻语料库)和自建语料库对比实验并分析实验结果,以验证本文提出的改进的基于LDA的特征提取算法的通用性。(2)使用中科院分词系统ICTCLAS分词系统和结巴分词对语料库中文本进行分词对比实验,根据分词结果的分词粒度大小选择出结巴分词完成文本的分词处理,并对分词性能进行测试。(3)为使文本分类器取得较优的分类效果,将LDA主题模型应用到文本分类的特征提取阶段,并提出了两种新的基于LDA主题模型的特征选择方法(即LDA_SD和LDA_WORD)。同时,也实现两种传统的特征选择方法MI和DF,和上述三种较为新颖的特征选择方法进行对比分析实验。(4)本文中对比测试了KNN、NB和SVM三种分类算法基于不同特征提取方法结果的分类效果,选择具有最优分类效果的分类算法实现分类器的核心模块。本文设计并实现了企业技术需求文本分类器,实验结果表明该分类器具有较优的分类效果,但实际应用效果还需进一步验证。根据实验测试结果,特征提取方法LDA具有最优的特征降维性能,分类效率极高,分类精度相对略差;本文中提出的改进的基于LDA的特征提取方法LDA_WORD具有最高的分类精度。这两种特征提取方法各有优势,可分别应用于不同需求的场合。
其他文献
随着移动互联网、社交网络、物联网等业务领域的快速发展,应用层需求的数量和种类都产生非常大的变化,用户对网络的需求呈现多样化的趋势。但是现有网络的模式依然保持不变。
目的:肝细胞癌简称肝癌(Hepatocellular carcinoma,HCC)是当今最常见的恶性肿瘤之一,而阿霉素(Doxorubicin,Dox)是HCC常用的化疗药物之一,但存在诸如靶向性差、药物清除率过快以及毒副作用强等缺陷。研究发现,细胞外囊泡(Extracellular vesicles,EVs)可作为一种新型纳米级载体被广泛应用于药物递送系统的开发。中医“相须”配伍理论,它指的是通
光无线混合宽带接入网(Hybrid Optical-Wireless Broadband Access Networks,HOWBAN)结合了光接入网络与无线接入网络各自的优点,使其具有高容量、低损耗、高可靠性、组网灵
科研合作渐渐成为科学研究的主流方式,特别是跨领域的合作也已是解决重大科学问题的主要途径之一,而能否寻求到合适的合作者,成为科研领域乃至社会各界长期普遍关心的问题。
加速度计是构建高端动力装置冲击与振动测量仪器设备的重要器件,其动态模型参数辨识是研究加速度计动态特性的重要内容。现有的加速度计动态模型参数辨识方法,通过获取加速度
随着通信技术和网络技术的不断发展革新,终端网络接入在多样性和高速性方面有了长足的进步,WIFI、3G、4G的广泛部署应用构建了一个多网络融合的异构网络环境,极大的丰富了用
近年来,膜蒸馏由于能够处理反渗透技术难以处理的高浓度盐水而引起了广泛关注。然而,膜蒸馏过程中不可避免地会发生膜污染及膜润湿现象。改变膜表面性质是目前最受重视的解决膜污染及膜润湿现象的方案。表面改性能够在保持膜完整性的情况下赋予膜表面新的特性。本文以聚偏氟乙烯(PVDF)商品膜为基膜,采用亲水性的聚合多巴胺(PDA)对PVDF原膜进行活化处理,并利用原位法使纳米银球均匀的生长在膜表面赋予其光热效应,
近年来智能手机越来越多的融入人们的生活,Android作为智能操作系统中用户最多的一种却面临严峻的软件安全威胁。为了应对这个问题,Android平台上的恶意应用检测技术有了长足
Skyline查询是一个典型的多目标优化问题,旨在找出一个多维数据集中所有用户可能感兴趣的信息,Skyline查询广泛应用于多目标决策支持系统、导航系统、信息推荐系统、数据挖掘
飞速发展的互联网带来了大量的网络资源的闲置以及不合理利用。这就对网格计算、云计算等技术的任务调度算法提出了更高的要求。与此同时,此种计算平台通过任务调度在为我们