基于深度学习方法的跨文献类型文本自动分类研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:anan9077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代背景下网络数字资源的爆发式增长,数字图书馆机遇与挑战并存,数字图书馆的学术资源不应局限于图书和期刊论文等传统的文本资源,互联网上的文本数据同样被认为极具学术价值的资源。因此,数字图书馆在保持原有的传统馆藏资源的优势上,需要将新闻网页等被认为同样具有学术研究价值的网络文本资源纳入其中。但是,一方面,互联网上的新闻网页等文本资源增长迅猛且更新频繁,如果将其纳入到数字图书馆中,不能使用传统的手工分类的方法对其进行分类组织管理,必须将文本自动分类技术应用到数字图书馆的资源分类管理系统之中;另一方面,如果使用传统的基于机器学习方法的自动文本分类技术,所使用的训练数据和测试数据属于同源数据或数据分布相同,即训练集文本和测试集文本来自同一种文献类型、使用尽量相同的词汇表达主题内容,才能够保证一定的分类效果;而现有的数字图书馆资源中未拥有大量高质量的新闻网页等标注好类别的网络文本资源用作训练集,如果对更新频繁、数量巨大的网络文本进行人工标注,则标注成本巨大,不符合实践要求。因此,使用数字图书馆中大量的、且已经标注了类别的期刊论文等文献类型的文本作为训练集,以新闻网页等文献类型的文本作为待分类的测试数据的思路成为一种可能的解决方法。然而,不同文献类型间由于读者对象、写作规范和用词习惯等不同,使得不同文献类型间的文本存在同义词、近义词等语义差异的问题,不能很好地满足数据分布相同的要求,导致采用传统的机器学习方法时自动分类的分类效果不甚理想。本文在此背景下,提出一种基于深度学习方法的跨文献类型的文本自动分类技术,旨在解决期刊论文与新闻网页等不同文献类型间的语义差异问题,从而提高将期刊论文作为训练集、以新闻网页作为待分类的测试集时的分类效果,并通过对比实验验证本技术的有效性。以下是本研究的主要内容以及结论:(1)跨文献类型的文本自动分类研究本文以互联网上的网络文本数据资源日益增长、新闻网页文献类型同样被认为具有极高的学术研究价值为研究背景,分析了多种文献类型的相关研究现状,对多种文献类型自动文本分类相关研究及采用的方法加以总结,并指出当前多种文献类型研究存在的不足之处,为本研究提供了充盈的理论基础以及科学合理的技术手段。(2)预训练模型的构建本文使用word2vec词向量模型作为预训练模型,以期解决不同文献类型文本间的语义差异问题。具体内容为:基于大规模的含有不同领域知识的语料集,基于CBOW模型进行word2vec训练,并使用负采样的方法,加速模型训练的速度,最终得到富含语义信息的词向量,本文在实验环节通过相近词的计算,语义空间的二维分布图等事例论证了word2vec在解决不同文献类型文本的语义差异问题上的有效性。(3)基于深度学习的跨文献类型的自动文本分类方法本文结合word2vec词向量模型在解决语义差异上的优势,以及深度学习在自动学习重要特征方面的优势,避免了基于传统机器学习方法在特征工程处理上的人力消耗,使用词向量模型作为深度学习模型的预训练模型对来自不同文献类型的训练数据和测试数据进行分类。本文使用基于共通语义空间的方法作为基准实验,并进行大量分类实验,对传统的分类方法和深度学习的分类方法进行比较,也对是否使用预训练模型的深度学习方法加以比较,验证了本文提出的方法的有效性;针对LSTM模型分类效果较差的结果,分析其原因,提出一种改进的Att_LSTM模型,并通过实验验证其有效性;最后,考虑到基于深度学习的模型容易受数据量的影响,使用不同的训练数据量进行实验比对,进一步论证了本文提出方法的稳定性和有效性。
其他文献
随着信息技术的深入发展,获取信息的渠道也愈发多元,从互联网获取信息方便快捷,越来越多的用户倾向于利用互联网来满足自己的信息需求。在这种情况下,档案馆尤其是公共档案馆作为社会公共文化服务机构,有能力也有必要通过互联网来开展信息服务,满足用户的需求,实现档案和档案馆的价值。日本档案事业长期停滞不前,二战后才开始慢慢萌芽,1971年才正式建立了国家档案馆即国立公文书馆,具有现代意义的档案事业才开始发展。
学位
在海洋划界案中,默示协议是海洋划界当事国之间,就确定海洋边界问题,采用默示的方式,达成的划界合意。默示协议的认定则是国际司法机构对当事国之间是否存在默示协议及协议具体内容的法律确定过程。默示协议的认定问题经历了“突尼斯诉利比亚案”、“喀麦隆诉尼日利亚案”和“圭亚那诉苏里南案”等案件的发展,最终国际法院在“尼加拉瓜诉洪都拉斯案”中建立了默示协议认定的标准,明确了标准的内容。这一标准以“令人信服的”证
学位
多抗霉素(polyoxin)属嘧啶核苷类农用抗生素,具有高效、低毒的特点,对多种植物真菌病害具有很好的防治效果,对天敌和植物安全,且不易产生抗药性。多抗霉素原药和制剂目前在我国已有多个厂家登记,但真正投入生产的厂家很少。就产业化现状而言,还存在几个关键的技术问题亟待解决。目前市场上无多抗霉素对照品提供,多抗霉素原药和制剂的检测依赖于生物效价法评价;多抗霉素原药未经过精制,最终产品有效成分含量较低。
学位
加入WTO后,中国加快实施了一系列贸易自由化改革措施,对外贸易得到迅猛发展。快速增长的进出口贸易带来了市场规模扩大、市场竞争增大等一系列变化,对我国的生产活动产生了重要的影响。一个与此相关的重要问题便是,贸易自由化是否有效促进了中国工业行业的技术升级?如果贸易自由化显著促进了中国工业行业的技术升级,那么贸易自由化主要是通过什么渠道影响中国工业行业的技术升级?为了回答上述问题,本文分别从理论和实证两
学位
信息偶遇是一种被动获取信息的方式,随着互联网网络技术的发展,新闻媒体的融合发展,人们以沉浸于新闻的海洋之中,面对海量的新闻内容,人们对新闻的获取已不再像传统纸质媒体那样是一种主动搜寻的方式,获取新闻的方式已逐渐转变成为一种被动获取的偶遇的方式。已有的信息偶遇研究主要聚焦于信息偶遇的概念、偶遇的过程模型、以及偶遇的形象因素研究,为偶遇微过程的研究较为缺乏。此外,在现在新媒体环境下,根据调查报告显示,
学位
当前,南海地区存在着复杂的岛礁主权、岛礁法律地位和海域划界争议,形成了诸多争议海域,且南海争议海域的传统和非传统安全问题此起彼伏,各国在南海争议海域既面临着日益严峻的执法需求,也因南海争议海域执法存在法律规范不统一、不确定,执法主体、执法手段乱象纷生等多种问题,造成了混乱的局面,甚至多次因执法争端导致区域国家间关系的紧张。我国海洋权益以及海洋战略面临着诸多风险与挑战,既需加强对争议海域违法行为的执
学位
近年来,随着信息技术的发展,互联网作为信息科技的产物,改变了经济和商业的运作方式。作为一种商业模式的颠覆性创新,共享经济打破了已成熟建立的传统商业模式,创造了巨大的社会和环境效益,在全球范围内的业务量呈现爆发式增长态势。共享经济也将同样改变酒店和旅游行业未来的发展动态。作为共享经济的一个重要子领域,在线短租的出现打破了消费者对传统酒店标准化住宿的单一选择壁垒,为住宿市场提供了多样化的房源,填补了市
学位
移动阅读时代,新闻客户端是人们获取新闻资讯的重要工具之一,融入了音频、短视频、直播等多样内容表达形式的新闻客户端带给人们一种全新的阅读体验。然而在新闻客户端飞速发展的同时,亦存在着设计同质化、内容质量不高、“信息茧房”导致用户阅读视野受限等问题,不利于其健康长远地发展。用户体验是衡量一个客户端成功与否的重要依据和评判标准。对新闻客户端的用户体验进行度量可以让经营者了解自身的运营状况,也可用作对其竞
学位
随着网购环境的日益完善、移动支付的广泛推行以及网民数量的日益增加,网购成为了人们生活中不可缺少的一部分,与此同时,互联网上关于商品的在线评论的数量也呈爆发式增长并反过来对商品的后续销量产生影响,在线评论已经成为了消费者在线搜寻可能的目标商品并下定决心购买该商品时的关键参考依据之一。因此分析在线评论数据对商品销量的预测研究具有重要意义,成为相关研究的重要方向之一。关于基于评论的销量预测研究,多是基于
学位
在线旅游企业通过深度加工用户数据可以以更低成本为用户提供更精准的位置服务,用户也可高效便捷地获取高质量位置服务来辅助旅行决策。但若企业过度收集用户数据和滥用用户数据则会伤害用户利益,触发用户的自我保护行为,并最终制约在线旅游行业的持续稳定发展。因此,探究触发用户隐私保护行为的机制对于平衡用户隐私和个性化服务之间的关系具有积极意义。本文聚焦于在线旅游用户位置隐私保护行为,探究了触发用户位置隐私保护的
学位