英文多文档查询型自动文摘研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:magicylt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要内容和中心意思,从而减少信息获取的时间。文本的自动摘要技术正好为人们提供了一种解决方案,通过计算机自动从一篇或多篇文档中提炼出用户需要的信息内容,从而节省用户获取信息的时间,减轻用户的负担。文本自动摘要技术一直是自然语言领域的研究热点,尤其是近年来,文本自动摘要出现了和自动问题回答系统融合的趋势,并更加注重于查询型的文摘,国际上相关的文摘评测会议也越来越受到科研单位的重视。对于文摘领域语义关系、篇章分析、机器学习方法应用的研究越来越多,在这一背景下,本文尝试对语义关系三元组这一重要特征以及机器学习方法应用于文摘做了详细的探讨。语义关系是文摘方法的重要特征,本文使用语义关系三元组这一重要特征来揭示文本之间的语义关系,在对句子进行充分的句法分析的基础上,抽取语义关系特征形成三元组,并引入搜索引擎等外部知识库,转化为更容易计算的词、关系之间的语义联系。在DUC权威语料上的实验证明,使用该特征在各项文摘性能指标上超过了经典的TF*ISF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的文摘系统,和参加DUC2005年评测的32个系统相比,ROUGE-L指标排名为第10。抽取式的文摘方法,可以看作两类的分类问题。机器学习方法可以选取最优的特征组合,学习出文摘模型。本文采用了最大熵、支持向量机等模型实现基于机器学习方法的自动文摘系统,对多种特征做了研究分析,并对句子相似度的计算方法做了比较。在DUC2005年的官方评测上,本文的自动文摘系统在所有参评的32个系统中名列前茅,在ROUGE-1,ROUGE-L,ROUGE-W三项指标上均名列第6名。
其他文献
乳腺癌是危害人类健康的恶性疾病之一。目前,超声因对人体无放射、价格相对低廉等优势被广泛用于乳腺癌的诊断。计算机辅助的乳腺癌早期诊断能够改善原始乳腺影像的质量,辅助
非平稳信号的分析是信号处理领域中的重要内容之一,但是目前用于分析非平稳的处理方法,都是基于傅立叶分析理论,因而同样受到傅立叶分析理论的制约。语音信号是一个复杂的非
目标跟踪技术是计算机视觉领域的一个研究热点,在很多领域有非常广泛的应用,例如军事、智能监控系统、智能人机交互系统、运动分析、交通检测、智能摄像头等等。但是在近岸海
计算机视觉领域中的三维重建广泛应用于虚拟现实、数字城市、艺术创作、文物重建等众多领域。表面重建是三维重建过程中的一个重要环节。本文是以泊松重建方法为基础,该算法
作为现代人工智能技术的典型代表,Agent和多Agent系统(Multi-agentSystems,简称MAS)成为人工智能研究实用化和分布计算环境下软件智能化的重要技术。Agent及人工智能技术的研究
软件复用是一种重复使用软件资产或过程的软件开发方法,目的是要提高软件质量和开发效率。目前,基于组件的软件开发成为软件资产复用的主流技术。基于组件的软件开发要求有足
计算机辅助审计改变了原有手工审计的对象和内容,提出了新的审计方法和审计模式,提高了审计效率。但是在许多的审计项目中都是审计专家与计算机专家的紧密结合才能够完成任务
词义消歧是自然语言处理中亟待解决的一个关键问题,词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,也是近些年来是计算语言学和自然语言处理领域一个
企业信息化建设的不同阶段开发了多个应用系统,它们有着独立的安全认证和用户管理机制,这些机制阻碍了应用系统的集成。单点登录技术使得用户在访问多个系统的受限资源时,只
本文首先介绍了数字水印技术的研究背景及现状,并且对当前研究较多的小波域图像水印算法进行了阐述,介绍了小波变换的基本概念和常见的小波域图像水印算法。在此基础上,本文提出