面向Web页面的异构信息网络构建及相关实体查询研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:q19891210626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异构信息网络具有优异的语义表达能力,面向其的聚类与分类、实体相似性分析、链路预测等研究已在诸多实际生活与科研领域中得以应用。其中面向异构信息网络的相关实体查询作为相似实体查询的延伸,在Web搜索或推荐系统等实际应用中起到了关键作用。但是,由于大多数异构信息网络都是从Web页面中抽取出的,因此,如何构建一个高质量的异构信息网络已成为首要问题,此外,由于已有的面向异构信息网络的相似性查询方法都是基于语义路径框架的,用户很难选取合理的语义路径,并且实体相似度计算的时间复杂度较高,缺少合理的实体相关度评价模型。针对这些问题,本文针对面向Web页面的异构信息网络构建、面向异构信息网络的实体相关性计算模型与相关实体查询方法进行研究。首先,针对Web页面混乱无序的问题,提出了基于规则的实体关系抽取策略完成实体关系的抽取,接着,通过三层实体匹配策略完成了对实体关系集合的清洗与匹配,最后,通过高质量的关系集合构建异构信息网络。其次,综合边的语义、用户偏好的影响及图结构上的特征等因素对权值进行合理化定义,并通过改进SimRank算法,提出了基于综合权重影响下的实体相关性评价模型RelSim,RelSim合理地权衡了边的语义、用户偏好和图的结构特征等因素的影响,更好地利用了异构信息网络的语义表达能力。接着,基于RelSim模型提出了一个基本的相关实体查询方法RelSim-naive;进一步针对RelSim-naive的不足,提出了一个基于路径模式的筛选算法,一方面,该算法可以选取路径空间,即对计算图进行合理的剪枝,降低算法的迭代计算代价,另一方面,可以有效地选取相关度贡献较大的语义路径,解决选取合理语义的问题,并在此算法基础上提出了一个完整的top-k的相关实体查询算法—RelSim-prune。之后,通过大量的实验对RelSim计算模型及top-k相关实体查询方法RelSim-prune的性能与合理性进行了验证。实验结果表明,RelSim计算模型能够有效地比较实体之间的相关性,RelSim-prune方法可以有效地提高计算速度,符合实际应用的需求。最后,设计并实现了一个相关实体查询与推荐系统REQR。本系统集成了数据抽取、实体识别与匹配、实体查询与推荐等功能,进一步验证本文提出的方法的有效性。
其他文献
随着生活水平的不断提高,人们对流媒体资源的需求越来越大,流媒体交互平台的作用愈发重要。目前主流的流媒体交互平台有两种:基于独立式服务器的流媒体交互平台和基于分布式
随着微博平台的不断发展,每天都有大量的话题产生,反映着现实社会中的一些热门事件和公众关注焦点。聚集在特定话题下的微博,集中体现了用户对该话题的观点表达,为了获得用户
伴随着计算机硬件处理能力的不断提高,计算机图形学得到了迅猛的发展,三维可视化技术作为计算机图形学的主要研究内容其应用也变得更加广泛。利用计算机图形图像学技术来绘制
21世纪以来,随着工业化、信息化、城市化的发展,大批农民工向城市转移,农村新生代劳动力受到了社会各界的广泛关注,由于成长环境的不同,这个群体的受教育水平、思维方式和行
目前,移动通信技术的不断成熟和智能终端设备的广泛应用,为移动社交网络(MSN,Mobile Social Networks)的提出和发展奠定了坚实的基础。作为一种全新的应用模式,MSN是现实在线
近年来,随着云计算、移动互联网和物联网等通讯技术的快速发展,网络通讯数据量呈爆发式增长,网络安全问题也日益凸显。针对多种网络安全协议设计的高速网络处理器满足了高速
太阳能的高效利用可以有效缓解我国能源的供需矛盾,而随着大气污染的加剧,大气气溶胶严重影响了太阳能的高效利用及光热转换效率。大气气溶胶通常指的是悬浮在大气环境中的空气动力学直径在0.001~100μm范围内的固体或液体颗粒物。作为当今气候研究中最大的不确定因素之一,气溶胶能够通过直接作用或者间接作用影响地气系统的辐射收支以及全球或局部地区气候,并且气溶胶的影响在一定程度上受其类型支配。对大气中气溶胶
移动云是云计算在移动互联网中的应用,社交云是社交网络与云计算技术融合的产物。将移动云与社交云相结合,就构成了移动社交云。移动社交云能够整合移动社交网络中的用户资源
随着网络的普及,网络娱乐用户规模持续高速增长,网络游戏、网络视频等相关形式的网络流量呈现指数型增加,网络能耗问题也越来越严重,传统的网络体系结构逐渐不堪重负,迫切需
随着人们对视频传输、内容播放等方面的安全性问题越来越多的重视,为了满足各种应用场合对视频安全性的需求,近年来,国内外学者针对视频数据的特点,提出了多种视频加密算法及