论文部分内容阅读
随着社会的进步和互联网技术的发展,网络信息量的频繁剧增,当今社会面临着信息大爆炸。当大量的信息像潮水般涌向人们时,传统人工处理信息的手段已经远远不足。为了解决这一问题,科学界提出文摘自动生成的技术。 自动文摘通常被视为自然语言处理的一项任务。文摘是准确全面地反映某一文章中心内容的简洁连贯的短文,与索引相比更能满足信息获取的要求。我国对自动文摘技术的研究目前还在初级阶段,但此技术所具有的重要作用是不可低估的,必将在未来的信息处理领域得到广泛的应用。 本论文基于现阶段的研究现状下,运用统计自然语言处理方法,首先对文章进行自动分词,利用停用词表对分词结果进行过滤,并利用知网(HowNet)获得概念,建立概念向量空间模型。通过计算词语重要度和句子重要度,系统得到一个粗略的文摘。最后再进行冗余计算,得到本文章的文摘。 本文在上述研究的基础上,设计了基于概念向量空间模型的自动文摘系统,实现了机器自动生成文摘的各个模块的功能,证实了本文利用概念统计的方法比基于词频统计的方法得到的文摘,能更准确含概原文章的中心内容。