论文部分内容阅读
关键词是人们获取信息的快捷方式,在信息检索和自然语言处理等领域均有重要的理论价值和应用价值。现有的关键词抽取方法大都依靠词汇的统计信息进行抽取,忽略了话题的影响;而且它们仅仅专注于关键词个体的优化,而忽略了关键词的整体质量。本文针对如何对文档主题建模,并通过文档主题优化关键词的整体质量进行了以下工作:基于整数线性规划的关键词抽取;基于排序学习的摘要关键词抽取;基于话题翻译模型的微博关键词抽取。本文的工作包括:提出了基于整数线性规划的关键词抽取方法。首先提出全局优化关键词质量的意义,并提出高质量关键词应具备的准则。为了对这些准则建模,提出了一种基于整数线性规划的关键词抽取方法。所提出的准则分别转化为整数线性规划问题的目标函数和约束条件。通过求解整数线性规划问题,可以得到高质量的关键词集合。实验表明该方法能够在保证关键词个体质量的前提下,同时优化关键词的整体质量。提出了基于排序学习的新闻摘要关键词抽取方法。“新闻摘要关键词”是指若干关键词的整体作为新闻摘要。首先讨论了新闻摘要关键词的价值,并定义了高质量的摘要关键词应满足的准则。为了对这些准则建模,提出了一个两阶段基于排序学习的摘要关键词抽取方法。第一阶段是候选关键词的选择,即从语料中选择若干个候选关键词个体;第二阶段是将候选关键词的所有子排列进行重排序,将最好的子排列作为最终的摘要关键词。实验表明基于排序学习的关键词抽取方法可以提取高质量的新闻摘要关键词,同时也验证了提出特征的有效性。提出了一种面向主题的翻译模型,并应用该模型进行微博关键词抽取的研究。为了解决微博较短,并且话题多样化的问题,提出了一种面向主题的翻译模型。该模型可以很好的综合话题模型和翻译模型的优点,一方面,它可以解决由微博较短引起的微博内容和关键词间的词汇差异问题;另一方面,它可以通过对微博主题的建模,帮助抽取主题相关的微博关键词。在对微博主题建模的研究中,尝试了两种建模方式:第一种是基于经典的话题模型Latent Dirichlet allocation[12],即假设每篇文档包含若干个主题,而文档中的每个词语关联一个主题。这种建模方式中的部分假设基于传统文档,而没有考虑短文档(如微博)的特性。为了更好的考虑微博特性,尝试了第二种建模方式,其中,假设每条微博只关联一个主题,并且假设微博中的词语分为两类:“主题词”和“背景词”。实验表明面向主题的翻译模型在效果上优于一些经典的关键词抽取方法,如分类模型,话题模型和翻译模型,并通过实例分析了对微博主题建模的两种方式的优劣。