论文部分内容阅读
随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要内容和中心意思,从而减少信息获取的时间。文本的自动摘要技术正好为人们提供了一种解决方案,通过计算机自动从一篇或多篇文档中提炼出用户需要的信息内容,从而节省用户获取信息的时间,减轻用户的负担。文本自动摘要技术一直是自然语言领域的研究热点,尤其是近年来,文本自动摘要出现了和自动问题回答系统融合的趋势,并更加注重于查询型的文摘,国际上相关的文摘评测会议也越来越受到科研单位的重视。对于文摘领域语义关系、篇章分析、机器学习方法应用的研究越来越多,在这一背景下,本文尝试对语义关系三元组这一重要特征以及机器学习方法应用于文摘做了详细的探讨。语义关系是文摘方法的重要特征,本文使用语义关系三元组这一重要特征来揭示文本之间的语义关系,在对句子进行充分的句法分析的基础上,抽取语义关系特征形成三元组,并引入搜索引擎等外部知识库,转化为更容易计算的词、关系之间的语义联系。在DUC权威语料上的实验证明,使用该特征在各项文摘性能指标上超过了经典的TF*ISF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的文摘系统,和参加DUC2005年评测的32个系统相比,ROUGE-L指标排名为第10。抽取式的文摘方法,可以看作两类的分类问题。机器学习方法可以选取最优的特征组合,学习出文摘模型。本文采用了最大熵、支持向量机等模型实现基于机器学习方法的自动文摘系统,对多种特征做了研究分析,并对句子相似度的计算方法做了比较。在DUC2005年的官方评测上,本文的自动文摘系统在所有参评的32个系统中名列前茅,在ROUGE-1,ROUGE-L,ROUGE-W三项指标上均名列第6名。