论文部分内容阅读
随着中国科学院科研信息化进程的加快,Academia Resource Planning3.0(ARP3.0)项目加快了中国科学院科研人员信息化办公的效率,然而,网上办公的信息量激增,文献和文字数量曾指数级增长,人们迫切需要能够从数据中快速、有效地抽取精简的资源和信息的工具。自动文摘技术为这个问题提供了良好的解决方案,它可以将重要的信息精确地从文本中抽取出来,为用户快速地获取精简的信息提供了有效的支持,节省浏览时间。 半监督学习(Semi-supervised Learning)是自然语言处理中(Natural LanguageProcessing)的重要研究方向之一,自动文摘技术常用的是有监督学习(SupervisedLearning)方法,虽然有监督学习在自然语言处理领域取得了大量的成功,但是由于其依赖大量的专业性高的标注语料,需要耗费巨大的人力成本,这对很多现实应用是不切实际的,半监督学习可以帮助克服这方面的部分问题。 同时,在ARP3.0中,文本通常是基于单文本的阅览和审批模式,所以基于多文本的自动文摘技术在该场景中并不适用,本文提出了一种针对于单文本基于半监督学习和图模型的抽取式摘要方法,工作主要包括以下三个方面: 提出了半监督学习在单文档自动文摘应用的算法,主要应用有两个部分:一,提出了利用半监督学习算法在文本主题上的分类;第二,将算法应用于实体发现,通过更多的实体发现提升句子打分的准确性。 提出了基于“实体图”和“句子图”构建中利用半监督学习算法的自动文摘系统框架。首先通过知识库(Knowledge Base)和LDA(主题模型)对待处理文本进行句子的分类和特征抽取,并对未知文档进行分类,然后,利用半监督学习的方法对文本组建成“实体图”和“句子图”,通过“实体图”和“句子图”对句子进行分类和打分,从而产生候选句子列表,然后对抽取出来的句子进行筛选,并对所选择的句子进行冗余消除,最终根据句子的重要度选择句子并组成文摘。 编程实现了自动文摘组件,并且此组件将集成至新一代ARP文档审阅模块。实验数据使用DUC2001(标准数据测试集)中做性能测试,实验结果采用国际上标准测试工具ROUGE-1和ROUGE-2作为衡量标准,相对于有监督学习而言,生成文摘的多项指标均得到提升,同时,在中国科学院“率先行动计划”的数据集上的测试中取得了较为满意的效果。证明本文提出的框架和模型能够有效地提高了单文档抽取式文摘系统的性能。