基于人机协作的实体消解方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:eltonlijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义Web技术的不断发展,尤其是链接开放数据项目的大力推广,海量的链接数据被发布到万维网上,逐渐形成了一个数据之网。这些数据描述了来自不同领域的各种各样的实体。由于万维网的开放性和分散性,同一个现实世界对象会在多个数据源中进行各自的描述,这些描述之间存在冗余、互补等现象。实体消解的任务就是识别指称同一现实世界对象的实体。它对于语义Web数据的融合、搜索和浏览等应用起着至关重要的作用。对于语义Web数据,自动化机器消解方法已经取得了一定的成果。然而,语义Web数据呈现出异构、规模大和质量参差不齐等特点,导致现有的机器消解方法还远不完美,有待进一步改进。近年来,基于人机协作的实体消解技术引起了广泛的关注。它通过引入人的知识来弥补机器消解的不足,减少可能的错误,提升消解的性能。然而,这种混合式的消解方法也带来了新的问题和挑战。首先需要考虑的问题是如何有效地综合人的智能和机器的处理能力,充分发挥人和机器在实体消解上互补的优势来获得更好的结果。其次,人的反馈容易存在错误和噪声。因此,质量控制是有人参与的实体消解需要应对的另一个问题。此外,伴随着质量控制的一个重要问题是代价优化。为了获得更高的准确率,可以加大人工参与量,然而所花费的成本也越高。针对上述问题,本文的主要工作如下:●提出了一种利用分布式人力计算和共识划分进行实体消解的方法。该方法首先使用分布式人力计算识别出一部分共指实体,然后结合机器学习算法进行大规模的实体消解。针对质量控制问题,利用共识划分聚合所有用户判断的共指结果,消解其中的不一致。为了减少用户的参与工作量,在共识划分上进行集成学习,以自动识别用户尚未判断的共指实体。该方法被集成到一个链接数据在线浏览系统中。在数据浏览的动机驱动下,用户可以在日常的浏览活动中参与实体消解。实验结果表明,该方法大大提高了用户判断结果的准确率,并通过自动识别大量共指实体减少了用户的参与量。●提出了一种基于不同主题上用户消解专业水平的实体消解方法。该方法基于分布式人力计算进行实体消解。通过文本内容分析,识别出每个实体消解任务具有的多个主题,在此基础上评估用户消解的专业水平,进一步提升人工判断结果的质量。与此同时,为了应对数据稀疏问题,利用了相似任务的聚类来改进相似任务之间的主题建模。最终,在一个统一的模型中同时完成用户专业水平评估,相似任务聚类以及每个实体消解任务的结果推断。实验结果表明,该方法以较少的人工参与量取得了更高的消解准确率,其评估的专业水平与用户真实的专业水平更加吻合。●提出了一种基于深度强化学习的实体消解方法。该方法将共指的实体进行聚类,在此期间,利用人的反馈优化聚类过程,提升实体消解的性能。为了有效地结合人的决策能力以及机器的处理能力,聚类过程被形式化为一个强化学习问题。首先,通过一个神经网络,基于属性取值信息进行实体对的表示学习,以此生成用于聚类的特征向量。然后,基于策略网络决定聚类每一步需要合并的簇。该方法利用人的反馈生成累积奖励,从全局角度优化特征向量学习和实体聚类过程。实验结果表明,该方法在不同数据集上的实体消解准确率超过了已有的基准方法。●提出了一种面向实体消解的属性聚类框架。属性聚类用于识别相关或者匹配的属性,是许多实体消解方法依赖的基础模块。所提出的的框架利用用户对于属性聚类结果的反馈,更准确地识别主题相关的属性,从而更好地构建基于属性信息的实体消解特征向量。该框架包含13种从不同角度衡量属性相关性的度量,以及七种不同特性的属性聚类方法。为了综合各种度量和聚类结果,该框架通过度量的线性组合以及共识聚类两种不同的组合方式提升属性聚类性能。实验结果表明,不同的度量和聚类算法在属性聚类精度和召回率上具有各自不同的偏好,其组合能够产生最佳的聚类结果。
其他文献
伊犁河谷地区地处我国西北边陲,由于土地利用不合理,沙漠化发展迅速,植被恢复困难,水土流失在低植被覆盖和高陡边坡区域频发,大规模的公路建设极易对当地生态环境造成负面影响。为促进公路建设与生态环境和谐发展,开展伊犁河谷地区公路边坡植被恢复模式及水土保持效应研究具有重要意义。本研究基于伊犁河谷地区独特的气候特征和生态特征,采用踏查法进行公路路域植物资源调查及特征分析,采用灰色关联分析法评价公路边坡水土保
学位
量子力学和经典信息论都属于人类最伟大的科学成就之一。它们间的学科交叉孕育了一个有意义的研究领域:量子信息论。本论文对该领域两个重要研究方向:离散量子行走和基于熵的不确定性关系进行深入探讨,从计算机科学的角度来分析这两个量子信息论中的问题。论文的第一部分研究离散量子行走。量子行走是经典随机行走的量子对应版本,是设计量子算法的重要工具。除其算法方面的作用,量子行走还能加深人们对量子力学的理解,因而是十
学位
长期以来,太阳系行星都是人类研究行星科学的唯一对象。而从1988年发现第一颗系外行星到现在,已经有近4000颗系外行星被发现并确认。这些发现向我们展示了一个丰富多彩的行星世界,周期短到几天的热木星,有伴星的温木星,质量在几个到十几个地球质量之间的超级地球,以及构型紧凑且在共振的多行星系统,无不体现着行星形成历史的多样性,为行星科学的研究提供了丰富的样本。行星形成机制一般认为有两种,本地形成和迁移。
合理准确地模拟中尺度对流系统(MCS)是大气科学研究中极具挑战的问题之一。尽管现阶段的模拟分辨率已经达到了云分辨尺度,但是模式对于MCS的模拟仍然相比于观测存在不小的偏差。本文利用WRF模式,选取了八种微物理方案模拟了发生在北美地区的一次飑线型MCS过程,采用多源观测资料从动力、热力以及微物理过程的角度分析了模拟中存在的偏差及其原因,并且探究了造成不同微物理方案模拟结果之间差异的主要因素。全文的主
WiMAX网络是基于IEEE802.16标准的高速宽带无线城域网(WMAN),它具有覆盖范围广、传输速率高、面向连接服务、提供QoS支持等优点。基于IEEE802.16m标准的WiMAX-2是ITU认可的4G标准,在5G网络中,WiMAX-Advanced标准与LTE技术相融合。IEEE802.16系列标准及草案主要关注MAC层和PHY层相关技术,规定了WiMAX网络的基本框架、层次结构,帧结构、
学位
上市公司的股票被实施特别处理的现象是其陷入严重财务困境的典型表现之一,在公司陷入财务困境状态之后,如何尽快化解困境成为了首要课题。上市公司通常无法控制在经营过程中所遇到的外部影响因素,但是能够尽可能地通过制定内部预防措施和调整战略方向等方法应对外部因素的负面冲击,此时能够起到关键作用的是公司内部核心高管人员,而首席执行官(CEO)作为企业的灵魂人物,更是起到了举足轻重的作用。具备某一领域专业能力的
在可持续发展背景下,维持土壤肥力、防止土壤退化、评估经营管理措施对土壤性质的影响,具有重要的实际意义。针对恢复人工林土壤肥力、提升生态系统稳定和维持功能可持续性的需求,本研究以河北省塞罕坝机械林场华北落叶松(Larix principis-rupprechtii)人工林为研究对象,设置不同间伐强度(对照,0%间伐;轻度间伐,14%间伐;中度间伐,28%间伐;重度间伐,42%间伐)和不同混交方式(华