基于深度学习的科技资源多标签文本分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hujun_xiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技服务业是现代服务业的重要组成部分,其中,科技资源作为科技服务业发展的基石,其数量、种类、分布量均达到了空前的壮大和发展。但科技资源分布分散孤立、多样复杂,导致资源集成度和有效利用率低,难以切实发挥其对科技与实体经济的支撑作用。为此“集成”并“科学分析利用”科技资源成为我国科技服务的关键核心任务和必然趋势。其中,“分类”是科技资源“集成”与“科学分析利用”的前提和基础。而在科技资源中,大部分资源都是以文本的形式存在,且均具有同属于多个类别的特点,所以面向文本科技资源多标签分类方法的研究成为科技资源分类方法研究的重要内容和热点趋势。为此,本文围绕国家重点研发计划课题“分布式资源巨系统及资源协同理论”(课题编号:2017YFB1400301)中提出的“集资源、融产业、创模式”以及打造科技服务业资源体系与资源分享模式目标,面向课题针对分散孤立、复杂多样科技资源开展跨平台资源汇聚、融合,以支撑跨行业分布式科技资源搜索、分析、匹配、评价和优化等任务,以课题任务要求的万方科技服务平台和宁波市科技信息研究院公共服务平台中的非结构化科技文本资源为数据支撑,重点研究支持科技文本资源汇聚、融合的多标签文本分类问题。本文的主要研究内容如下:(1)针对现有科技资源存在的文本分类方法效果差、不合理、效率低等问题,在对科技文本资源特点以及分类方法问题分析的基础上,研究并提出基于深度学习的多标签科技文本分类总体技术实现方案,该方案由科技文本预处理和基于seq2seq多标签科技文本分类方法两大部分组成,分别针对科技文本数据源处理及分类需求两方面开展研究。(2)根据科技文本数据源存在长文本、噪音大、专业词汇量大等特点,以及中文文本存在的连续不间断字、停用词等问题,完成面向科技文本的预处理,主要包括短文本化、去除文本噪声、分词、去停用词、训练面向科技文本的词向量等,为后序的科技文本分类工作提供数据质量的保证和文本数据的形式化支持。(3)针对现有科技资源文本分类方法存在效果差、不合理、效率低,以及现有多标签文本分类方法存在未同时考虑文本局部和全局语义信息、没有充分考虑标签之间相关性的问题,设计一种基于seq2seq的多标签科技文本分类方法。该方法由编码器和解码器两部分组成,其中编码器首先通过卷积神经网络来提取文本中的短语表示,然后将其和词向量依次通过LSTM和注意力机制来获取文本向量,而解码器通过LSTM和初始化的全连接层来对编码器提取的文本向量进行解码,从而得到预测的标签集。(4)为验证多标签文本分类方法的性能,本文在三个公开数据集上进行了实验验证。首先与最近的多标签分类模型进行了对比实验,实验结果表明我们提出的方法优于之前的工作。本文对实验结果的进一步分析表明使用卷积神经网络提取的短语表示对分类是有效的,并且初始化的全连接层确实能有效捕获两两标签之间的相关性;除此,对标签序列长度的研究还表明,我们的方法相比目前效果最好的方法能够更好的预测标签数量较多的样本。(5)为验证本文提出的多标签科技文本分类技术方案的有效性,我们将该方案实际应用到科技论文分类中进行验证。通过与现有科技资源服务平台中的文本分类方案进行对比,结果表明,本文提出的基于深度学习的多标签科技文本分类方案明显优于平台中的文本分类方案。
其他文献
中国幅员辽阔、历史悠久,国情具有特殊性,我国坚定不移的走中国特色社会主义道路,经济社会发展取得了丰硕的成果,中国这一头睡狮已经睡醒,崛起在世界东方。在司法权的依法独立前提下,实现中华民族伟大复兴的中国梦,是新时代坚持和发展中国特色社会主义的奋斗目标,而全面推进依法治国是其本质要求和基本保障。习近平总书记指出“全面推进依法治国总目标是建设中国特色社会主义法治体系,建设社会主义法治国家”。公平正义作为
1上海港发展物流产业的必要性(1)港口物流产业可以产生巨大的社会和经济效益,上海港发展物流产业是构筑上海城市综合物流的重要组成部分上海要建设国际经济、金融、贸易与航
【美国《华尔街日报》8月13日】中国消极的经济数据引发大陆股市大卖盘,因为焦虑重重的投资者担心通胀压力会损害收益增长。
医药是关系国计民生的重要产业,近年来,医药行业发展速度迅猛,然而,它也面临着一些行业集中度较低和产品有较为严重的同质化的问题,通过并购,有望实现行业内部整合,增强企业竞争力。但是并购活动的复杂性使得并购具有很大的风险,并购失败的频频案例出现。理论界把能不能实现正向的协同效应当作判别并购是不是成功的标准之一。论文试图通过对医药企业并购的经典案例是否实现协同效应的分析得出经验教训。本文首先运用理论研究
以"估计误差的方差权小"作为最优准则,建立港口货物吞吐量的组合预测模型,燕以天津港物吞吐时预测为例,在回归分析法和3次指数平滑法预测的基础上,采用组合预测验模型对天津
资产证券化是最近几十年来全球最重要的一项金融创新,是我国港口航运界以较低代价可以实现的一种融资方式。
2 国际公路货物运输公约国际公路货物运输公约是二战后国际公路运输迅速发展的产物,它适用于所有欧洲国家间的公路运输,并在所有欧洲国家具有法律效力.虽然它也和海上货物运
2001年国际集装箱运输市场货源增速大幅下降、运力过剩严重、运价长期低迷、市场竞争十分激烈.特别是"9.11事件"对全球集装箱运输市场的负面影响正呈日趋扩大之势,与此同时受
核心战略能力 借助现代物流的网络化体系进行供应链的一体化管理,在全球范围内整合企业内外的各种资源,以较低的成本和快速的反应提供个性化的产品和服务,增加顾客的满意度,
作业队生产形式是适应集装箱运输的专业化需求而产生的.1990年厦门港集装箱公司开始启用该作业形式,为厦门的集装箱运输业发展起到积极的推动作用.作业队生产装卸工艺灵活、