论文部分内容阅读
随着互联网的飞速发展,越来越多的用户交互式媒体涌现出来,人们在这些平台上发表对事物的观点评论,对这些观点文档的研究蕴含了巨大的商业价值和学术价值。随着数据量的不断增大,观点检索也逐渐成为自然语言处理的一个研究热点,它研究如何从社交媒体等文档集中找出带有观点的相关文档,既要求检索出的文档与给定主题相关,还要求带有对主题的评论或看法。目前,国内外学者对观点检索已经开展了许多研究,并取得了一定的成果。但由于用户查询时输入通常很短,难以准确表示查询的信息需求,而现有方法往往忽略了这一点。针对该问题,本文利用知识图谱理解用户的信息需求,进行了以下三个方面的工作:(1)针对用户查询通常很短,难以准确表示查询的信息需求的问题,提出了基于知识图谱实体文本的观点检索模型,通过知识图谱中的实体文本理解用户的信息需求。该模型首先由知识图谱获取候选查询扩展词,并计算每个候选词的扩展词分布、共现频率、邻近关系、文档集频率等特征,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。(2)针对基于知识图谱实体文本的观点检索模型中只利用了实体文本的特征,而知识图谱中的其他信息并未得到充分利用的问题,提出了融入知识图谱实体类别的观点检索模型。首先将用户查询和文档实体链接到DBpedia,获取实体的类别属性,然后根据类BM25公式计算实体类别评分,并将类别评分与原有的主题相关度评分进行融合,得到新的检索模型公式。在中英文数据集上的实验结果表明,该模型的检索效果在多个评价指标上均好于(1)中提出的方法。(3)针对融入实体类别的观点检索模型只考虑了单个实体的描述文本和类别属性,而实体间关系未得到利用的问题,提出了融入知识图谱实体关系和类别的观点检索模型。在查询扩展获取候选扩展词时,不仅考虑实体文本,还考虑与实体相关的其他实体的知识,同时针对不同扩展词的差异,在模型中增加扩展词的权重因子。实验结果表明,该方法相较于(1)和(2)可以更加有效地检索到所需的观点文档。