论文部分内容阅读
随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。
本文重点研究了面向用户查询的多文档自动文摘技术。它是自然语言处理领域一个新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。主要的研究工作如下:
1.对句子的构成进行了深入分析,然后进一步探讨了句子、文档集、文摘以及用户查询之间的关系。在此基础上,建立了一个统一的自动文摘模型,为自动文摘研究提供了一个理论框架,使我们对文摘问题有了更深刻的认识。这个模型包含三个子模型,本文分别实现了这三个子模型。
2.证明了LexRank存在解析解,并给出了简单快速的求解方法。然后将这种方法作为基于内容代表性的子模型,纳入到自动文摘模型中。
3.提出了一个新的模型——非完全吸收马尔科夫链模型,并证明了它与吸收马尔科夫链之间的对应关系。它的求解相对吸收马尔科夫链简单高效。然后将它作为基于内容代表性的子模型,纳入到自动文摘模型中。
4.最后,在分析模型缺陷的基础上,对统一文摘模型进一步改进,得到了两种新的快速自动文摘方法,并通过实验证实了它们的有效性。