基于关键字和类型信息的实体检索方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:fhzh508508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来调查发现,实体检索在信息检索占比逐渐上升,其根据用户的查询返回特定实体或实体属性。与以网页形式呈现的传统检索结果不同,实体检索能够快速准确的返回与查询相关的实体列表及相关信息,用户无需进行二次查找,提升了搜索体验。实体指唯一标识的对象或事物(例如人,组织和地点),其特征包括类型、属性以及与其他实体间的关系。实体特征在检索中发挥重要作用,但实体特征的多面性会为检索性能带来负面影响。本文在分析实体特征的基础上,结合类型信息进行检索,提高检索准确度。主要研究内容如下:(1)针对平面文档语义描述能力不足的局限,本文基于对域加权的方法在结构化文档上进行检索。通过分析结构化文档内部特征,构建层次实体模型。考虑到文档中不同域对主题贡献的差异问题,使用BM25F算法作为实现实体检索的基础方法。为解决结构化文档内部结构模糊化的问题,采用DBpedia数据集作为知识库,按照文档集中不同表达内容划分域,进行组合域的选择并对域进行加权。实验验证了引入文档结构信息可以提高检索性能;(2)在基于关键字的检索方法基础上,引入实体类型信息,构建基于关键字和类型信息的实体检索模型(T-CER)。从三方面分析类型信息特征:首先,提出一种基于概率分布的类型相似度测量方法;其次,根据类型层次结构表示实体与分配类型的相关性等级;最后,对类型层次结构进行定义,构建四种不同规模的类型分类系统。将基于关键字相似度匹配方法和基于类型信息相似度匹配方法进行结合,生成实体检索模型。在理想化“Oracle”机制下,为给定查询提供正确的目标实体类型分布,实验验证了,利用类型层次结构信息可提高检索性能,并且对检索模型中不同组合方法进行比较,实验结果表明,在Wikipedia分类系统中利用最具体类型信息的严格过滤方法时检索性能表现最优;(3)在实际搜索场景中,由于用户习惯使用单一搜索框架,在查询时标注类型可能会导致认知过载。为解决这一问题,本文利用LTR监督学习方法对查询限定的目标实体类型进行自动标识。通过对现有自动标识类型方法的实现,对类型与查询相似性及类型标签特征进行分析,提取了25个用于LTR类型排序方法的特征。实验结果表明,基于LTR的类型标识方法为查询自动分配了有效类型。
其他文献
张君劢既是哲学家,又是政治家,相应的必然是宪政专家。宪政思想是张氏思想的起始点,也是张氏思想的落脚点。忽视或者轻视宪政思想,就无法懂得其问题意识,最终可能迷失在张氏
近年来,受到互联网信息技术迭代升级的有效驱动,我国网信事业飞速发展,取得重大进步.随着网络强国、数字中国战略不断加快实施,我国网络基础设施建设愈发完备,互联网覆盖范围
石英晶振是利用晶体的压电效应制成的一种晶体振荡器。因为它具有高稳定性、高精度和低功耗等特点,被广泛应用于各种电器产品中。近年来,各生产企业为了在激烈的市场竞争中取
ZnO是一种具有优异特性的宽禁带半导体材料。由于ZnO在室温下为具有很高的激子束缚能(60meV),高于其它宽禁带半导体材料(如GaN为21meV,ZnSe为20meV,也远高于室温热能26meV),激子增
2016年8月,闽侯县青口镇叶某饲养1只4岁杂种犬发病,经检查诊断为下颌淋巴外渗,通过治疗后康复。
高效的物流系统是以物流信息化为前提的,信息化已经成为建设现代物流的核心因素。通过了解信息化对我国现代物流业的支持作用,分析了我国现代物流信息化的现状和存在的制约因
目的为患者提供血型抗原尽量相同的血液,保证输血安全。方法用微柱凝胶法检测14,549名输血患者Rh血型系统D、C、E抗原。结果 Rh(D)抗原、Rh(C)抗原、Rh(E)抗原阳性率分别为99
根据京九复线现场施工,提出在4m线间距时,1线不限速通过普通列车的情况下,Ⅱ线3台不同型号架桥机同时分口架梁的施工方法及注意事项。
对人造天体和近地小行星等空间运动目标探测、定位、定轨和追踪的一种基本方法是光学成像观测。由于这些目标在恒星背景上运动方向和速度各不相同,加上目前CCD成像技术的限制
“雅”和“俗”作为中国传统美学中的一组重要的审美标准,对立统一、相互交织。几千年来,以其丰富的内涵,定义着不同种类的文化艺术。$$在中国传统文化艺术中,“雅”一直占据着主
报纸