Web中相关实体发现研究

被引量 : 2次 | 上传用户:quangang770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和信息检索技术的迅猛发展,Web成为人们获取信息的重要途径,而搜索引擎则成为从Web中获取信息的重要工具。传统的搜索方式是:用户向搜索引擎(比如Google、百度)提交查询,搜索引擎则依据提交的查询给用户返回一组相关文档列表。但是很多时候用户需求的并不是文档本身,而是文档中包含的实体信息。因此如何从众多的Web文档中找到用户需求的实体信息成为近年来的研究热点,而相关实体发现研究正是针对用户的这种特殊实体查询需求而产生。相关实体发现是指给定一个由源实体、目标类型和源实体与目标实体的关系描述构成的查询,找到符合要求的一组实体。返回的实体需要满足查询要求的类型,但是给定的目标类型经常非常粗糙,这导致无法对得到的实体进行准确的类型判断,针对这个问题我们做了如下的工作:1)提出一种自动获取细粒度目标类型及其下义种子实体的方法。通过对查询语句的句法分析获取细粒度目标类型,利用查询模板获取目标类型的下义种子实体。2)提出一种基于归纳法的细粒度目标类型下义类别判别规则集合获取方法,对于数量较少的种子实体,利用归纳法获取细粒度目标类型的下义类别判别规则集合。3)提出一种基于特征提取的细粒度目标类型下义类别判别规则集合获取方法,对于数量较多的种子实体,利用学习到的最佳特征提取方法获取细粒度目标类型的下义类别判别规则集合。由于初始检索到的候选实体是无序的,要想得到满足用户查询要求的实体,必须对所有的候选实体进行排序,针对该问题我们做了如下的工作:1)提出了一种基于生成概率模型的实体排序方法。从实体相关度、实体类型相关度和实体关系相关度三方面的组合计算来对实体进行排序,通过对比多种组合方法,获取最佳的排序方法。对于实体类型相关度的计算使用了两种方法,一种方法是基于归纳法获取的细粒度目标类型下义类别判别规则集合,利用不同的规则集合数进行实体类型相关度计算,另一种方法是基于特征提取方法获取的细粒度目标类型下义类别判别规则集合。对于实体关系相关度计算,评估了两种平滑方法对实体排序的影响,并提出了一种去停止词重构关系的实体关系相关度计算方法,提高了排序效果并降低了时间耗费。2)提出了一种基于马尔可夫随机场的实体排序方法。该方法将实体用文档、类型和名称三个属性表示,利用学习到的最佳权重参数通过线性合并查询与候选实体表示文档的相关度、目标类型与候选实体类型的相关度以及源实体与候选实体名称的相关度来对实体进行排序。相关实体发现任务中,实体被定义为由其唯一的主页所表示,因此对所有的候选实体排序后,还要找到实体的主页。针对实体的主页查找问题,提出了一种查找方法,通过合并Web页面的多属性表示得分和实体的Wikipedia页面外部链接得分来实现实体的主页查找。实验结果表明,我们提出的方法可以有效的完成相关实体发现任务,大量的减少用户人工获取相关实体信息的工作,并为用户提供一个有效的结果。
其他文献
在中国书法艺术的发展史上,魏晋书法占有非常重要的地位。本文着重探讨魏晋书法艺术的风格特色,以及形成这种风格的社会背景和社会人文思想。魏晋书法笔致含情,崇尚自然而又飘逸
市场经济是法治经济,税收作为以国家为主体的分配形式,必须以法的形式加以规范和体现。随着社会主义市场经济的初步建立和完善,依法治税将越来越发挥重要作用。坚持依法治税,
异丙隆、扑草净和氯氟吡氧乙酸都是有机化合物类除草剂。其中异丙隆是取代脲类选择性除草剂,扑草净是均三氮苯选择性除草剂,氯氟吡氧乙酸是氧乙酸类除草剂。三种除草剂都广泛
在司法实践中 ,我国的司法鉴定人出庭率低于 5 % ,使当事人双方的质证权利无法行使 ,从而对其司法鉴定结论产生怀疑 ,损害司法的公信力 ,同时严重影响法官对司法鉴定结论的审
法律的调整对象是社会关系,其核心归根结底就是利益关系。利益协调是立法的主要目标,立法协调是利益协调的重要手段之一。外资立法固然要保护外商利益,更重要的是保护我国根
急性冠脉综合征(ACS)若未能得到及时合理治疗,易导致主要不良心血管事件(MACE)的发生。MACE作为各类心血管疾病的终点事件,预后极差,严重影响患者的预后及生活质量。若能早期
<正>直肠癌在我国恶性肿瘤发率占第4位。传统手术方法是结肠腹壁造口术,术后生活质量差,而中低位直肠癌保肛手术最大限度地保留了肛门的控制排便功能,受到患者的欢迎。由于保
本文从电工原理出发,推导铁心电抗器绕组电感的工程计算方法。
深调浅堵技术是针对管外窜槽导致高含水油井恢复产能的一种高效堵水措施,该技术通过"深调"和"浅堵"两方面实现了油井二次固井,从根本上彻底解决固井水泥环松动或产生皲裂而导
在对美国非常规天然气产业规模化利用研究的基础上,全面分析了中国非常规天然气资源的地质条件和开发状况,并从资源评价、勘探开发和配套政策三方面剖析了制约中国非常规天然