论文部分内容阅读
近年来,Twitter、新浪微博等社交媒体产生的海量短文本形成了巨大的信息资源,同时也造成了严重的信息过载问题。自动摘要技术能从海量短文本中自动挖掘出有价值的信息,并以浓缩形式展示给用户,从而节省用户大量时间。因此,研究针对社交媒体短文本的自动摘要技术具有重大的应用价值。 如何从文本中挑选出最相关的信息是抽取式摘要技术的重点,因此抽取式自动摘要可转化成句子选择问题,而其重点在于句子相似度度量和句子打分算法。但是由于社交媒体短文本篇幅小、噪声大、规范性差且稀疏性严重,导致传统文档摘要技术中的句子打分方法无法直接用于短文本,而且基于词袋模型和基于深度句子表示的单一粒度相似度度量不能很好地度量句子相似度。针对这些问题,本文开展了如下研究工作。 提出基于key-bigram提取的无监督微博自动摘要方法,以充分利用微博中文本片段的重复特性。首先,分别基于混合TF-IDF、TextRank和主题模型提取key-bigram以刻画微博话题下细粒度的核心子主题。然后,基于提取的key-bigram集合,提出了分别基于交叠相似度和互信息策略的句子打分(排序)算法。最后,以贪心迭代的形式抽取排名靠前、且满足一定冗余度条件的句子组成特定长度的摘要输出。在新浪微博和Twitter数据集上的实验结果同时表明,本方法能有效提升摘要的ROUGE-1值,尤其是准确率。 研究了基于融合思想改进key-bigram提取和句子排序结果的技术。为了更充分地考查bigram之间的语义关系,提出一种基于局部密度思想的key-bigram提取算法,并将TextRank与之级联,为其产生候选key-bigram集合。抽取摘要时,基于平均排名和排名稳定性对多排序结果融合。实验结果表明,融合多种排序结果能进一步提升摘要质量。 提出一种基于深度学习的多粒度相似度度量和次模函数优化相结合的短文本自动摘要方法。将抽取式摘要问题建模成带背包约束的次模函数最大化任务,联合优化摘要的覆盖度和多样性,同时用基于深度学习的多粒度相似度对目标函数加以改进。Opinosis数据集上的实验结果表明,本文提出的多粒度相似度度量方法,比基于词袋模型和单一粒度的深度句子表示计算相似度的方法更鲁棒,在ROUGE-SU4指标下超过了该数据集上目前最好的结果。