论文部分内容阅读
随着语义Web技术的不断发展,尤其是链接开放数据项目的大力推广,海量的链接数据被发布到万维网上,逐渐形成了一个数据之网。这些数据描述了来自不同领域的各种各样的实体。由于万维网的开放性和分散性,同一个现实世界对象会在多个数据源中进行各自的描述,这些描述之间存在冗余、互补等现象。实体消解的任务就是识别指称同一现实世界对象的实体。它对于语义Web数据的融合、搜索和浏览等应用起着至关重要的作用。对于语义Web数据,自动化机器消解方法已经取得了一定的成果。然而,语义Web数据呈现出异构、规模大和质量参差不齐等特点,导致现有的机器消解方法还远不完美,有待进一步改进。近年来,基于人机协作的实体消解技术引起了广泛的关注。它通过引入人的知识来弥补机器消解的不足,减少可能的错误,提升消解的性能。然而,这种混合式的消解方法也带来了新的问题和挑战。首先需要考虑的问题是如何有效地综合人的智能和机器的处理能力,充分发挥人和机器在实体消解上互补的优势来获得更好的结果。其次,人的反馈容易存在错误和噪声。因此,质量控制是有人参与的实体消解需要应对的另一个问题。此外,伴随着质量控制的一个重要问题是代价优化。为了获得更高的准确率,可以加大人工参与量,然而所花费的成本也越高。针对上述问题,本文的主要工作如下:●提出了一种利用分布式人力计算和共识划分进行实体消解的方法。该方法首先使用分布式人力计算识别出一部分共指实体,然后结合机器学习算法进行大规模的实体消解。针对质量控制问题,利用共识划分聚合所有用户判断的共指结果,消解其中的不一致。为了减少用户的参与工作量,在共识划分上进行集成学习,以自动识别用户尚未判断的共指实体。该方法被集成到一个链接数据在线浏览系统中。在数据浏览的动机驱动下,用户可以在日常的浏览活动中参与实体消解。实验结果表明,该方法大大提高了用户判断结果的准确率,并通过自动识别大量共指实体减少了用户的参与量。●提出了一种基于不同主题上用户消解专业水平的实体消解方法。该方法基于分布式人力计算进行实体消解。通过文本内容分析,识别出每个实体消解任务具有的多个主题,在此基础上评估用户消解的专业水平,进一步提升人工判断结果的质量。与此同时,为了应对数据稀疏问题,利用了相似任务的聚类来改进相似任务之间的主题建模。最终,在一个统一的模型中同时完成用户专业水平评估,相似任务聚类以及每个实体消解任务的结果推断。实验结果表明,该方法以较少的人工参与量取得了更高的消解准确率,其评估的专业水平与用户真实的专业水平更加吻合。●提出了一种基于深度强化学习的实体消解方法。该方法将共指的实体进行聚类,在此期间,利用人的反馈优化聚类过程,提升实体消解的性能。为了有效地结合人的决策能力以及机器的处理能力,聚类过程被形式化为一个强化学习问题。首先,通过一个神经网络,基于属性取值信息进行实体对的表示学习,以此生成用于聚类的特征向量。然后,基于策略网络决定聚类每一步需要合并的簇。该方法利用人的反馈生成累积奖励,从全局角度优化特征向量学习和实体聚类过程。实验结果表明,该方法在不同数据集上的实体消解准确率超过了已有的基准方法。●提出了一种面向实体消解的属性聚类框架。属性聚类用于识别相关或者匹配的属性,是许多实体消解方法依赖的基础模块。所提出的的框架利用用户对于属性聚类结果的反馈,更准确地识别主题相关的属性,从而更好地构建基于属性信息的实体消解特征向量。该框架包含13种从不同角度衡量属性相关性的度量,以及七种不同特性的属性聚类方法。为了综合各种度量和聚类结果,该框架通过度量的线性组合以及共识聚类两种不同的组合方式提升属性聚类性能。实验结果表明,不同的度量和聚类算法在属性聚类精度和召回率上具有各自不同的偏好,其组合能够产生最佳的聚类结果。