论文部分内容阅读
随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(LatentDirichlet Allocation)是主题模型中具有代表性的概率生成性模型之一。本文提出了一种基于LDA的文摘方法,该方法以复杂度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度。根据LDA模型中主题的概率分布和句子的概率分布提出了两种小同的句子权重计算模型。实验中使用ROUGE评测标准,与代表最新水平的SumBasic和其他基于LDA的多文档摘要在普通多文档摘要测试集DUC2002上的评测数据进行比较,结果表明本文提出的基于LDA的多文档摘要在ROUGE的各个评测标准上均优于SumBasic,与其他基于LDA模型的文摘相比也具有优势。