数据万维网自动实体匹配

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:aylylxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据万维网的逐步成形,大规模自动实体匹配成为一个急需完成的重大任务。该任务旨在将万维网上来自不同数据集,却有着同样意义的实体进行匹配,从而使网络程序在探索、查询、筛选、汇总多个来源的数据时能够得到更为完整和正确的操作结果。它关系到大量网络应用的性能和用户体验,这些应用包括搜索、浏览和各种采用混合技术搭建的网络程序(Mashup)。然而,在进行这种数据整合的工作过程中我们将会遇到几大挑战。首先,我们需要一个可扩展的解决方案,它既能在合理的时间内处理海量的万维网数据,又能保证足够的整合效果(如准确率和召回率)。其次,现在还很难对这类解决方案进行评测,因为目前还没有一个实体匹配评测标准能够反映出万维网数据的多样性。本文针对以上这些挑战深入研究数据万维网实体匹配这一课题,并提出一个二阶段的实体匹配方案,即首先对所有实体进行分块,将有可能具有相同意义的实体分到同一个块中;再在每一个分块内部根据实体的局部结构特性对同义的个体进行聚类。实验证明,该方案具有良好的扩展性,并能达到足够好的匹配效果(即准确率和召回率)。
其他文献
随着计算机技术及因特网技术在中国的发展,中国游戏产业逐渐形成规模。尤其是这几年,国家提倡电脑游戏软件的自主研发,因此各种游戏引擎软件中的技术和算法成为了人们研发的热点
科技的快速发展使得社会分工越来越细致,基于互联网的软件协同开发是一种全球范围内的协同工作。近年因基于网络环境的软件开发活动日益增多,出现了各种形式的软件构件库,在不同
学位
一、“卫国”“卫国”是1958年从辽宁省引入我区的。各县试种结果,一般亩产600—800斤,高者达1,000斤以上.比同期成熟的早籼“珍珠早”增产23.16—113.07%。 First, “Pat
在毛主席无产阶级革命路线指引下,我组教师和学员坚持《五·七》方向,深入农村,开门办学,认真学习和总结贫下中农施用食盐的历史经验,探索氮肥增效剂能够提高肥效的原理,在
我县水鸣公社龙利大队第七生产队,去年冬种植小麦“晋麦2148”优良品种11.2亩,亩产达587.2斤,比种本地小麦12.3亩每亩产量高得多。在栽培过程中,他们主要抓了以下几点:1.适
我写的《卷土重来未可知》(载1987年10月6日《洛阳日报》)被评为河南省好新闻,粗浅体会是: “养兵千日,用兵一时”,即平时积累大量资料,关键时敢于分析推断。据有关部门统计
党报通讯员的神圣职责,是如实地、准确地向党报反映情况和撰写稿件。全省绝大多数通讯员同志正是这样做的,他们以战斗的姿态,扎扎实实、一丝不苟的工作作风,出色地完成了党
本试验应用二次回归正交旋转试验设计方法研究了黑河九号大豆主要栽培因子(密度、氮肥、磷肥和钾肥)与大豆产量的关系,建立了黑河九号大豆在本省第四积温带黑河地区土壤中等
随着交友网站的发展,有目的地针对特定的交友用户进行广告投放具有明显的商业盈利价值。为了提高网站的知名度,降低运营成本,汇聚更多的用户,交友网站需要根据站点访问记录,
协同设计能够节省时间,提高工作效率,是目前许多工作量大和复杂性高的企业采用的工作方式。其中实现各个协作单位间产品相关的数据和过程集成化管理,建立数据集成服务器的技