面向Web数据的实体挖掘研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:moyixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网(World Wide Web)的迅速发展和Web用户数量急剧增加,大规模的Web数据已经成为一类重要的数据资源,在研究和应用领域受到了广泛的关注。Web数据可以分为两种类型:一类是Web内容数据,即以文本、图片、音频和视频等形式大量发布于网上的内容信息,例如新闻、博客和维基百科等;另外一类是Web使用记录数据,即用户使用相关Web应用时累积的使用信息,例如搜索引擎的用户查询日志和网站浏览记录等。这些Web数据不仅是人们长期利用Web从事相关活动的产物,更是人类知识的积累,蕴含了丰富的“大众智慧”。其中,在Web数据中蕴含了一类重要的语义知识,即命名实体。命名实体是现实世界中抽象或者具体的实体,包括人、地点、电影和小说等。命名实体是文本的核心语义单元,也是人们正确理解文本的基础。因而,如何从Web数据中挖掘实体信息,进而来改善Web应用以及构建相关的Web服务,成为近年的研究热点。   本文以用户查询日志和Web文档这两类典型的Web数据为研究对象,分析了这两类数据的特点,并基于这两类数据对实体挖掘工作做了深入的研究,以有效的解决实体挖掘过程中所面临的种子实体不充分、查询模板稀疏以及噪音实体过多等诸多挑战。具体工作如下:   1.基于用户查询日志的单类别命名实体挖掘   我们首先展开基于用户查询日志的单类别命名实体挖掘问题的研究。基于用户查询日志的单类别命名实体挖掘,是给定类别和类别下的一组种子实体,从用户查询日志中挖掘隶属于给定类别的实体。在本工作中,核心问题就是如何在给定种子实体数目较少的条件下能够有效的对候选实体进行排序。已有研究工作利用候选实体与类别之间的相似度来对候选实体进行排序。然而这种排序策略忽略了候选实体之间的关系(即候选实体之间共享查询模板),因而不能有效的对候选实体进行排序。在我们工作中,采用基于二部图的半监督学习方法,充分利用候选实体之间的关系来对候选实体进行排序,进而改善命名实体挖掘的效果。实验验证了我们方法的有效性。   2.基于用户查询日志的多类别命名实体挖掘   我们对基于用户查询日志的命名实体挖掘问题做了进一步深入的研究。命名实体可能隶属于多个类别,即命名实体具有歧义性;查询模板可能来自于多个类别,即查询模板具有多义性。基于上述观察,我们展开了基丁用户查询日志的多类别命名实体挖掘的研究。基于用户查询日志的多类别命名实体挖掘,就是给定一组类别和每个类别下的一组种子实体,从用户查询日志中挖掘隶属于给定类别的其他实体。在本工作中,核心问题是如何在实体具有歧义并且查询模板稀疏条件下能够有效的对候选实体进行排序。已有的挖掘方法忽略了命名实体具有歧义性、模板具有多义性以及未标注实体的信息,因而不能有效的对候选实体进行排序。在我们工作中,采用半监督话题模型,充分利用模板之间的关系(即模板之间的共现关系)改善命名实体排序效果。实验表明,我们的方法优于基准方法,具有较好的挖掘效果。   3.基于Web文档的关联实体挖掘   我们最后研究了基于Web文档的关联实体挖掘问题。基于Web文档的关联实体挖掘,目标是从Web文档中挖掘返回一组与源实体具有指定关系并且符合特定类型的相关实体。本工作的核心问题是如何在噪音实体过多条件下能够有效的对候选实体进行排序,即让真正相关实体优先返回。已有的排序方法主要是基于用户查询(即源实体和关系描述)与候选实体之间的共现关系。但是这种排序方法主要局限性是,对那些相关的但是与用户查询共现次数少的实体不能够很好的排序。在我们工作中,提出基于二部图的排序方法,该方法利用“Co-List”关系在候选实体之间进行相关性的传播,进而改善实体排序的效果。实验表明,我们的方法优于参评方法,具有较好的排序效果。   研究结果表明,充分利用对象之间的关系(例如实体之间的关系或者模板之间的关系),能够提升命名实体挖掘的效果,进而可以帮助我们改善Web相关应用和构建更好的Web服务,来满足用户的需求。
其他文献
互联网络飞速发展的同时网络安全事件日益增多,对于高性能网络入侵防御系统的需求日趋强烈。基于硬件加速的入侵防御系统不能满足不断变化的攻击手段。网络流量的不断增加对
随着Intenet/3G网络技术、流媒体技术、嵌入式技术的发展,以及人类对安全防护、机械自动化等的重视,监控系统的发展前景越来越广阔。本文设计并实现了一种便于使用、性能稳定
网络管理信息模型是网络管理的核心内容之一,网络管理活动是以管理信息模型为中心来展开的。传统的网络管理信息模型主要是针对面向连接的网络定义和设计的,近年来针对无连接
随着GIS的迅速发展和广泛应用,各行各业的用户对GIS的需求也越来越具体,同时要求定制的级别也越来越高。这不仅考验着GIS开发人员的开发水平和设计能力,同时也更是对现有的GIS开
P2P系统是近年来出现的一种很流行的应用,P2P的对等网络结构使节点既可充当服务请求者,又可以是服务提供者,相对传统的C/S架构有很多优势。P2P系统可分为结构化P2P和非结构化
混沌系统是具有复杂的、不可预见行为的确定性非线性系统,初值敏感性是其主要特性之一,这一特性使得混沌同步的方法在保密通信领域得到了广泛的应用。近年来,混沌系统同步的
地下水是我们生活中不可缺少的自然资源。随着现代工农业的迅速发展,人类对地下水资源的合理开发和有效利用,逐渐成为了学术界所关注的焦点。我们主要利用数值模拟的方法来进
现实世界中,一个地区或城市通常由不同的部门在不同的时间负责采集地理数据,并各自建立相应的地图数据库,在地理信息系统中亟待解决的问题是,如何将来源不同或者差异程度不同
随着计算机网络技术在产品开发设计过程中的进一步应用,网络化产品协同设计技术已经成为现代产品设计理论和方法研究领域关注的研究热点,网络化产品协同设计是指多学科群组人
随着信息时代的到来,软件技术突飞猛进,软件产品在社会各个应用扮演着越来越重要的角色。如何保证软件质量一直是计算机技术的热门研究领域。软件测试已经成为了保证软件质量