论文部分内容阅读
近年来调查发现,实体检索在信息检索占比逐渐上升,其根据用户的查询返回特定实体或实体属性。与以网页形式呈现的传统检索结果不同,实体检索能够快速准确的返回与查询相关的实体列表及相关信息,用户无需进行二次查找,提升了搜索体验。实体指唯一标识的对象或事物(例如人,组织和地点),其特征包括类型、属性以及与其他实体间的关系。实体特征在检索中发挥重要作用,但实体特征的多面性会为检索性能带来负面影响。本文在分析实体特征的基础上,结合类型信息进行检索,提高检索准确度。主要研究内容如下:(1)针对平面文档语义描述能力不足的局限,本文基于对域加权的方法在结构化文档上进行检索。通过分析结构化文档内部特征,构建层次实体模型。考虑到文档中不同域对主题贡献的差异问题,使用BM25F算法作为实现实体检索的基础方法。为解决结构化文档内部结构模糊化的问题,采用DBpedia数据集作为知识库,按照文档集中不同表达内容划分域,进行组合域的选择并对域进行加权。实验验证了引入文档结构信息可以提高检索性能;(2)在基于关键字的检索方法基础上,引入实体类型信息,构建基于关键字和类型信息的实体检索模型(T-CER)。从三方面分析类型信息特征:首先,提出一种基于概率分布的类型相似度测量方法;其次,根据类型层次结构表示实体与分配类型的相关性等级;最后,对类型层次结构进行定义,构建四种不同规模的类型分类系统。将基于关键字相似度匹配方法和基于类型信息相似度匹配方法进行结合,生成实体检索模型。在理想化“Oracle”机制下,为给定查询提供正确的目标实体类型分布,实验验证了,利用类型层次结构信息可提高检索性能,并且对检索模型中不同组合方法进行比较,实验结果表明,在Wikipedia分类系统中利用最具体类型信息的严格过滤方法时检索性能表现最优;(3)在实际搜索场景中,由于用户习惯使用单一搜索框架,在查询时标注类型可能会导致认知过载。为解决这一问题,本文利用LTR监督学习方法对查询限定的目标实体类型进行自动标识。通过对现有自动标识类型方法的实现,对类型与查询相似性及类型标签特征进行分析,提取了25个用于LTR类型排序方法的特征。实验结果表明,基于LTR的类型标识方法为查询自动分配了有效类型。