论文部分内容阅读
随着万维网(World Wide Web)的迅速发展和Web用户数量急剧增加,大规模的Web数据已经成为一类重要的数据资源,在研究和应用领域受到了广泛的关注。Web数据可以分为两种类型:一类是Web内容数据,即以文本、图片、音频和视频等形式大量发布于网上的内容信息,例如新闻、博客和维基百科等;另外一类是Web使用记录数据,即用户使用相关Web应用时累积的使用信息,例如搜索引擎的用户查询日志和网站浏览记录等。这些Web数据不仅是人们长期利用Web从事相关活动的产物,更是人类知识的积累,蕴含了丰富的“大众智慧”。其中,在Web数据中蕴含了一类重要的语义知识,即命名实体。命名实体是现实世界中抽象或者具体的实体,包括人、地点、电影和小说等。命名实体是文本的核心语义单元,也是人们正确理解文本的基础。因而,如何从Web数据中挖掘实体信息,进而来改善Web应用以及构建相关的Web服务,成为近年的研究热点。
本文以用户查询日志和Web文档这两类典型的Web数据为研究对象,分析了这两类数据的特点,并基于这两类数据对实体挖掘工作做了深入的研究,以有效的解决实体挖掘过程中所面临的种子实体不充分、查询模板稀疏以及噪音实体过多等诸多挑战。具体工作如下:
1.基于用户查询日志的单类别命名实体挖掘
我们首先展开基于用户查询日志的单类别命名实体挖掘问题的研究。基于用户查询日志的单类别命名实体挖掘,是给定类别和类别下的一组种子实体,从用户查询日志中挖掘隶属于给定类别的实体。在本工作中,核心问题就是如何在给定种子实体数目较少的条件下能够有效的对候选实体进行排序。已有研究工作利用候选实体与类别之间的相似度来对候选实体进行排序。然而这种排序策略忽略了候选实体之间的关系(即候选实体之间共享查询模板),因而不能有效的对候选实体进行排序。在我们工作中,采用基于二部图的半监督学习方法,充分利用候选实体之间的关系来对候选实体进行排序,进而改善命名实体挖掘的效果。实验验证了我们方法的有效性。
2.基于用户查询日志的多类别命名实体挖掘
我们对基于用户查询日志的命名实体挖掘问题做了进一步深入的研究。命名实体可能隶属于多个类别,即命名实体具有歧义性;查询模板可能来自于多个类别,即查询模板具有多义性。基于上述观察,我们展开了基丁用户查询日志的多类别命名实体挖掘的研究。基于用户查询日志的多类别命名实体挖掘,就是给定一组类别和每个类别下的一组种子实体,从用户查询日志中挖掘隶属于给定类别的其他实体。在本工作中,核心问题是如何在实体具有歧义并且查询模板稀疏条件下能够有效的对候选实体进行排序。已有的挖掘方法忽略了命名实体具有歧义性、模板具有多义性以及未标注实体的信息,因而不能有效的对候选实体进行排序。在我们工作中,采用半监督话题模型,充分利用模板之间的关系(即模板之间的共现关系)改善命名实体排序效果。实验表明,我们的方法优于基准方法,具有较好的挖掘效果。
3.基于Web文档的关联实体挖掘
我们最后研究了基于Web文档的关联实体挖掘问题。基于Web文档的关联实体挖掘,目标是从Web文档中挖掘返回一组与源实体具有指定关系并且符合特定类型的相关实体。本工作的核心问题是如何在噪音实体过多条件下能够有效的对候选实体进行排序,即让真正相关实体优先返回。已有的排序方法主要是基于用户查询(即源实体和关系描述)与候选实体之间的共现关系。但是这种排序方法主要局限性是,对那些相关的但是与用户查询共现次数少的实体不能够很好的排序。在我们工作中,提出基于二部图的排序方法,该方法利用“Co-List”关系在候选实体之间进行相关性的传播,进而改善实体排序的效果。实验表明,我们的方法优于参评方法,具有较好的排序效果。
研究结果表明,充分利用对象之间的关系(例如实体之间的关系或者模板之间的关系),能够提升命名实体挖掘的效果,进而可以帮助我们改善Web相关应用和构建更好的Web服务,来满足用户的需求。