论文部分内容阅读
随着信息技术的迅猛发展,人们可以获取大量的文本数据;例如:Web新闻、科技文献、数字图书、电子邮件和微博等。如何有效地组织和管理海量的文本数据,快速、准确地从中找到用户所需的信息,成为智能信息处理研究领域面临的挑战之一。为此,从大量文档中提取简洁摘要信息的多文档摘要技术吸引了研究人员的广泛兴趣。近年来,电子商务和社交网络的快速发展催生出大量的书评影评、网络聊天、产品介绍等形式的短文本。这些短文本数据包含了大量有价值的隐含信息,对人们的日常生活产生了很大的影响。与长文档处理方法相比,因为短文档词汇具有非常少的词共现信息,使得传统的多文档摘要方法直接进行处理时效果不佳。因此,有效地提供精简内容的多文档摘要技术具有重要的研究价值和现实意义。本文在长文档的摘要技术和短文档的摘要技术研究的基础上,提出几种基于带通配符序列模式和概率主题模型的多文档摘要技术算法。主要研究工作如下:(1)提出一种基于闭合模式的多文档摘要算法。从词的计算角度上说,已有的多文档摘要提取方法可以分为基于词的方法和基于本体的方法:基于词的方法很难处理一词多义和多词一义的问题,基于本体的方法考虑了词语的语义信息,但是受限于具体的领域。为了克服这些问题,本文探索利用闭合模式从多文档中提取最精简的句子和缩减摘要中的冗余,并提出一种基于闭合模式的多文档摘要方法。该方法通过联合每个句子中闭合模式的权重和闭合模式的分布,迭代地选择高得分且低相似于已选择摘要的句子,直到满足摘要长度约束。本文提出的的方法不仅具有基于词的方法的统计特性,而且保留了部分语义信息。实验结果表明:基于闭合模式的方法优于对比的其他方法。(2)提出一种基于用户评论的多文档摘要提取算法。用户评论里隐含了用户关心的主题,而多文档摘要的目标就是提取最符合用户关心的摘要,为此,利用用户评论辅助多文档摘要是一个很好的研究问题。概率主题模型作为最好的摘要系统方法之一,我们尝试使用概率主题模型提取摘要。首先,新闻文档是长文档,用户评论一般是短文档,它们的集合这里被称之为异质文档。从长文档中发现主题通常基于一个文档含有多个隐含主题的假设去学习,而短文档主题模型假设每个文档只有一个主题取得更好的效果。从而,两种假设方法都不适合从异质文档中提取隐含的主题。为此,本文提出了一种基于异质文档的主题模型,然后根据从异质文档中提取的主题从新闻文档中选择核心的句子作为摘要。这样,摘要信息不仅包含了新闻数据的核心信息,也包含了用户的评论的核心信息。实验结果验证了该方法的有效性。(3)提出一种基于词嵌入模型的短文档主题提取算法。由于短文本中有着非常受限的词共现信息,使已存在的方法不能很好的解决这个问题,如概率隐式语义分析和隐式狄利克雷分配。由于基于词嵌入模型能很好的从大语料中学习到词语的语义表示,为此,提出一种新颖的短文档主题模型方法,称之为基于词嵌入的主题模型(Embedding-based Topic Modeling, ETM)。通过利用词嵌入信息对短文档聚合成伪长文本,ETM解决了短文本中非常受限的词共现问题。然后,利用马尔科夫随机场正则化模型使伪长文档中相似的词语更高的概率属于同一个主题。与最好的算法进行对比,实验验证了 ETM的有效性。