论文部分内容阅读
科技服务业是现代服务业的重要组成部分,其中,科技资源作为科技服务业发展的基石,其数量、种类、分布量均达到了空前的壮大和发展。但科技资源分布分散孤立、多样复杂,导致资源集成度和有效利用率低,难以切实发挥其对科技与实体经济的支撑作用。为此“集成”并“科学分析利用”科技资源成为我国科技服务的关键核心任务和必然趋势。其中,“分类”是科技资源“集成”与“科学分析利用”的前提和基础。而在科技资源中,大部分资源都是以文本的形式存在,且均具有同属于多个类别的特点,所以面向文本科技资源多标签分类方法的研究成为科技资源分类方法研究的重要内容和热点趋势。为此,本文围绕国家重点研发计划课题“分布式资源巨系统及资源协同理论”(课题编号:2017YFB1400301)中提出的“集资源、融产业、创模式”以及打造科技服务业资源体系与资源分享模式目标,面向课题针对分散孤立、复杂多样科技资源开展跨平台资源汇聚、融合,以支撑跨行业分布式科技资源搜索、分析、匹配、评价和优化等任务,以课题任务要求的万方科技服务平台和宁波市科技信息研究院公共服务平台中的非结构化科技文本资源为数据支撑,重点研究支持科技文本资源汇聚、融合的多标签文本分类问题。本文的主要研究内容如下:(1)针对现有科技资源存在的文本分类方法效果差、不合理、效率低等问题,在对科技文本资源特点以及分类方法问题分析的基础上,研究并提出基于深度学习的多标签科技文本分类总体技术实现方案,该方案由科技文本预处理和基于seq2seq多标签科技文本分类方法两大部分组成,分别针对科技文本数据源处理及分类需求两方面开展研究。(2)根据科技文本数据源存在长文本、噪音大、专业词汇量大等特点,以及中文文本存在的连续不间断字、停用词等问题,完成面向科技文本的预处理,主要包括短文本化、去除文本噪声、分词、去停用词、训练面向科技文本的词向量等,为后序的科技文本分类工作提供数据质量的保证和文本数据的形式化支持。(3)针对现有科技资源文本分类方法存在效果差、不合理、效率低,以及现有多标签文本分类方法存在未同时考虑文本局部和全局语义信息、没有充分考虑标签之间相关性的问题,设计一种基于seq2seq的多标签科技文本分类方法。该方法由编码器和解码器两部分组成,其中编码器首先通过卷积神经网络来提取文本中的短语表示,然后将其和词向量依次通过LSTM和注意力机制来获取文本向量,而解码器通过LSTM和初始化的全连接层来对编码器提取的文本向量进行解码,从而得到预测的标签集。(4)为验证多标签文本分类方法的性能,本文在三个公开数据集上进行了实验验证。首先与最近的多标签分类模型进行了对比实验,实验结果表明我们提出的方法优于之前的工作。本文对实验结果的进一步分析表明使用卷积神经网络提取的短语表示对分类是有效的,并且初始化的全连接层确实能有效捕获两两标签之间的相关性;除此,对标签序列长度的研究还表明,我们的方法相比目前效果最好的方法能够更好的预测标签数量较多的样本。(5)为验证本文提出的多标签科技文本分类技术方案的有效性,我们将该方案实际应用到科技论文分类中进行验证。通过与现有科技资源服务平台中的文本分类方案进行对比,结果表明,本文提出的基于深度学习的多标签科技文本分类方案明显优于平台中的文本分类方案。