半监督学习的研究及在自动文摘中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dongmeizi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国科学院科研信息化进程的加快,Academia Resource Planning3.0(ARP3.0)项目加快了中国科学院科研人员信息化办公的效率,然而,网上办公的信息量激增,文献和文字数量曾指数级增长,人们迫切需要能够从数据中快速、有效地抽取精简的资源和信息的工具。自动文摘技术为这个问题提供了良好的解决方案,它可以将重要的信息精确地从文本中抽取出来,为用户快速地获取精简的信息提供了有效的支持,节省浏览时间。  半监督学习(Semi-supervised Learning)是自然语言处理中(Natural LanguageProcessing)的重要研究方向之一,自动文摘技术常用的是有监督学习(SupervisedLearning)方法,虽然有监督学习在自然语言处理领域取得了大量的成功,但是由于其依赖大量的专业性高的标注语料,需要耗费巨大的人力成本,这对很多现实应用是不切实际的,半监督学习可以帮助克服这方面的部分问题。  同时,在ARP3.0中,文本通常是基于单文本的阅览和审批模式,所以基于多文本的自动文摘技术在该场景中并不适用,本文提出了一种针对于单文本基于半监督学习和图模型的抽取式摘要方法,工作主要包括以下三个方面:  提出了半监督学习在单文档自动文摘应用的算法,主要应用有两个部分:一,提出了利用半监督学习算法在文本主题上的分类;第二,将算法应用于实体发现,通过更多的实体发现提升句子打分的准确性。  提出了基于“实体图”和“句子图”构建中利用半监督学习算法的自动文摘系统框架。首先通过知识库(Knowledge Base)和LDA(主题模型)对待处理文本进行句子的分类和特征抽取,并对未知文档进行分类,然后,利用半监督学习的方法对文本组建成“实体图”和“句子图”,通过“实体图”和“句子图”对句子进行分类和打分,从而产生候选句子列表,然后对抽取出来的句子进行筛选,并对所选择的句子进行冗余消除,最终根据句子的重要度选择句子并组成文摘。  编程实现了自动文摘组件,并且此组件将集成至新一代ARP文档审阅模块。实验数据使用DUC2001(标准数据测试集)中做性能测试,实验结果采用国际上标准测试工具ROUGE-1和ROUGE-2作为衡量标准,相对于有监督学习而言,生成文摘的多项指标均得到提升,同时,在中国科学院“率先行动计划”的数据集上的测试中取得了较为满意的效果。证明本文提出的框架和模型能够有效地提高了单文档抽取式文摘系统的性能。
其他文献
虚拟化技术的出现拯救了复杂多样的硬件平台与多种多样的操作系统之间、或者多种操作系统与基于系统的应用开发之间的复杂性。例如,随着高级语言虚拟机JAVA虚拟机的出现,JAVA
软件复用是提高软件开发效率和软件质量的一种有效手段。研究和实践表明,在特定领域内对软件资产和经验进行复用更易获得成功。特定领域内的软件复用包含领域工程和应用工程两
随着人们生活水平的不断提高,对于电视、电影、三维游戏中的特效真实感的需求也不断增强,水的模拟在其中应用非常广泛,因此图形学中流体模拟领域一直都是研究的热点。但与此同时
网络教学是现代教育技术综合应用中的一个重要领域,也是实现教育信息化的重要手段。随着信息化时代的不断向前发展,各个高校的校园网建设也已经初具规模,顺应教育教学体制改革的
随着Internet的快速发展,以Web应用为主要形式的网络服务已成为现代社会不可或缺的重要组成部分,保障网络服务的正常运行并有良好的服务质量十分关键。软件故障诊断技术是一种
语种识别是指计算机自动判定一段语音所属的语言种类的技术,在近几年中,其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲,一个成功的语
人类已经迈入二十一世纪,信息化、智能化已经成为当今的热门话题,无论是在金融、医疗、军事、教育等各领域都在实行着信息化、智能化的革新。如何运用先进的技术实现现代化的管
面向服务的体系结构是一个广泛应用于企业级软件架构的模式。它通过将不同功能抽象为服务,通过使用接口将服务与服务联系起来。这样的体系结构满足现今对功能解耦的需求。于
生物信息学是将数学、计算机科学等领域的科学理论、应用技术等应用于生物科学,以达到了解生物数据的目的的一种跨学科前沿科研领域。第一生产力的科技,已然成为改善人类的生活
信息化社会对软件系统日益增长的需求与依赖,以及软件规模及复杂度的不断增加加剧了软件的“可信”问题。开发满足客户需求的可信软件是目前软件业的巨大挑战。软件过程技术的