论文部分内容阅读
异构信息网络具有优异的语义表达能力,面向其的聚类与分类、实体相似性分析、链路预测等研究已在诸多实际生活与科研领域中得以应用。其中面向异构信息网络的相关实体查询作为相似实体查询的延伸,在Web搜索或推荐系统等实际应用中起到了关键作用。但是,由于大多数异构信息网络都是从Web页面中抽取出的,因此,如何构建一个高质量的异构信息网络已成为首要问题,此外,由于已有的面向异构信息网络的相似性查询方法都是基于语义路径框架的,用户很难选取合理的语义路径,并且实体相似度计算的时间复杂度较高,缺少合理的实体相关度评价模型。针对这些问题,本文针对面向Web页面的异构信息网络构建、面向异构信息网络的实体相关性计算模型与相关实体查询方法进行研究。首先,针对Web页面混乱无序的问题,提出了基于规则的实体关系抽取策略完成实体关系的抽取,接着,通过三层实体匹配策略完成了对实体关系集合的清洗与匹配,最后,通过高质量的关系集合构建异构信息网络。其次,综合边的语义、用户偏好的影响及图结构上的特征等因素对权值进行合理化定义,并通过改进SimRank算法,提出了基于综合权重影响下的实体相关性评价模型RelSim,RelSim合理地权衡了边的语义、用户偏好和图的结构特征等因素的影响,更好地利用了异构信息网络的语义表达能力。接着,基于RelSim模型提出了一个基本的相关实体查询方法RelSim-naive;进一步针对RelSim-naive的不足,提出了一个基于路径模式的筛选算法,一方面,该算法可以选取路径空间,即对计算图进行合理的剪枝,降低算法的迭代计算代价,另一方面,可以有效地选取相关度贡献较大的语义路径,解决选取合理语义的问题,并在此算法基础上提出了一个完整的top-k的相关实体查询算法—RelSim-prune。之后,通过大量的实验对RelSim计算模型及top-k相关实体查询方法RelSim-prune的性能与合理性进行了验证。实验结果表明,RelSim计算模型能够有效地比较实体之间的相关性,RelSim-prune方法可以有效地提高计算速度,符合实际应用的需求。最后,设计并实现了一个相关实体查询与推荐系统REQR。本系统集成了数据抽取、实体识别与匹配、实体查询与推荐等功能,进一步验证本文提出的方法的有效性。