Web数据集成中实体演化与关联问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:jljc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web数据集成系统通过有效整合来自不同Web数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析应用提供重要的高质量的数据支撑。然而,现实世界和反映现实世界的Web世界中的各种数据是变化和相互关联的。“知己知彼,百战不殆”,在各种Web数据集成的应用场景中,及时获取事物的演变和关联信息是进一步分析和决策的前提。然而,目前Web数据集成系统采集的数据主要来源于数据量大、质量相对较高的Deep Web站点,并将它们整合成具有统一模式的结构化数据。在海量的Web数据背景下,Web数据集成系统所提供的数据存在以下局限性:1)Web上的数据存在多样性,相同的事物在不同的网站上的描述不一定相同,甚至在同一个网站上随时间的变化描述也会不尽相同,这使得数据采集的时候进行错误的数据对齐甚至遗漏一些有用的数据,从而影响收集的数据的质量。2)世界是动态的,相同的事物在不同的时刻具有不同的状态,建立事物在不同时刻的状态的演变过程能帮助用户掌握事物更全面的信息,有助于进一步分析和决策。但是Web数据具有多样性和不完整性的特点,用户很难在Web数据集成系统中发现事物状态的时间顺序。3)Web数据集成系统中的事物之间存在丰富的关联,比如两个公司之间存在竞争或者合作关系,这些关联对后续分析和决策有重要意义,但是由于Web数据集成系统的数据采集于有限的数据源,仅仅从Web数据集成系统中很难挖掘出来这些有意义的关联信息。本文以提高Web数据集成系统中数据的质量、提供目标实体全面丰富的信息为目标,针对Web数据集成系统中实体信息的演化与关联问题展开研究,主要贡献如下:(1)本文提出一种结合语义标注和相似度匹配的实体模式动态更新的方法。该方法一方面能克服定制的实体模式无法随着Web页面中半结构化数据的描述信息的变化而逐步丰富Web实体模式的不足,另一方面也能有效解决Web实体模式与目标页面中Web数据对象的属性标签间的模式匹配问题。首先根据对同一站点的Deep Web详细页面的观察得知,将多个页面中的所有数据进行聚类分组,而高频出现的通常为该组的描述信息,用这些描述信息作为预标注结果。同时,利用条件随机场模型(CRF)为数据分组分配Web实体模式中已定义的标签,将预标注结果与CRF模型标注的结果进行匹配确定最终标注的结果,匹配不成功的描述信息将作为实体的新的模式信息(新属性或属性的新同义词)被添加到领域模型中。特别的,在进行标签匹配时,有效利用了集成系统中已集成的数据来提高匹配的准确性。实验结果表明,该方法在有效丰富实体的模式信息的同时,也提高了目标页面中的Web数据对象的到集成系统中的属性对齐的准确性。(2)为了记录实体属性值的演化过程,本文提出一种基于Markov逻辑网的实体属性值的时序确定方法。该方法基于有效的实体统一,对Web属性值所属的数据源以及Web数据本身特点的观察和分析的前提下,利用数据源的更新频率、数据源之间的依赖关系、数据源对提供的数据的更新频率(同一个数据源对不同的数据的更新频率不一定相同)等特征,利用Markov逻辑网(MLN)在对不确定的知识进行推理方面的优势,将所有对确定属性值的时间顺序有用的特征作为证据谓词,定义MLN中的谓词公式作为推理规则,对给定的属性值的时间先后关系进行推理。该方法一方面从属性值上而不是整个实体上考虑信息的时效性,推理得到实体属性值的演化过程,对Web数据集成系统提供高质量的数据具有重要的意义。另一方面通过对Web属性值所属的数据源以及Web数据本身特点的观察和分析,结合领域内Web数据本身的语义及相关约束,综合运用多角度的特征和规则,保证了得到的Web属性值时序的有效性。(3)针对Web数据集成中的数据来自有限数据源和Web信息发布的随意性,提出一种两阶段聚类的Web实体语义关联发现的方法。该方法从搜索引擎的返回结果中挖掘发现Web数据集成系统中相关实体之间的丰富的语义关联。方法重点针对开放的关系抽取中不能区分一对实体之间的多种语义关联,分两个阶段对表示实体语义关联的上下文信息进行聚类,在第一阶段的聚类中,将每个与目标实体关联的实体相应的关联先按编辑距离和WordNet中的语义相似度进行初步分类,然后对这些分类进行层次聚类;第二阶段的聚类用于对上一阶段得到的语义聚类进行调整。由于Web上对相同关系的表示形式在通用的语义词典工具如WordNet(英文)和HowNet(中文)并不一定语义相似,因此聚类得到的结果可能存在将一种语义关系分成几个不同的集合的情形,针对这种情况,利用分布假设理论,即相同的分布暗示相同的语义,用迭代的方法对聚类结果进行调整,直至聚类结果趋于收敛。
其他文献
康复权是《残疾人权利公约》和我国《残疾人保障法》规定的残疾人基本权利之一,其实现与一个国家的社会政策和法律制度的建设密切相关。康复权的实现在西方国家历经了一个漫
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
新建明挖隧道从既有高架桥墩之间穿过,基坑边距离桥墩较近时,基坑开挖对桥墩的变形及受力产生一定影响,影响程度受多种因素制约,基坑开挖过程中保证既有桥墩的运营安全是项目
随时我国城市化进程的不断开展,施工企业抓住建设的历史性发展机遇,在各个方面都有长足的进步,但有一个最根本的问题一直困扰施工企业,那就是市场竞争日趋激烈,工程标价不断降低,企
采用TIG堆焊方法在Q235钢板上堆焊铜合金。通过光学显微镜、扫描电镜观察了接头界面的组织形貌,分析了焊接工艺对铜合金层中泛铁量的影响;通过显微硬度计对堆焊接头的硬度分布
云存储作为云计算中基础设施即服务的一种重要形式,在数据归档、在线文档编辑、数据容灾备份、以及个人网盘等方面的应用日益广泛。它以资源池的形式向用户提供了可按需扩展
湿地是自然界初级生产力最高的生态系统,也是最具生物多样性特征的场所,为城市提供着多重生态服务功能。松江湿地作为哈尔滨市生态系统的重要组成部分,不仅具有重要的生态价值,也具有重要的经济价值和社会价值。近年来哈尔滨市城市化进程处于大力推进阶段,高强度的人类活动和无序开发,使得松江湿地生态资源逐年遭受蚕食,湿地生态环境极度恶化,湿地生态恢复迫在眉睫。在科学的定位和策略下,合理的规划设计是保护和恢复湿地资
经历了长达7年的航行,穿越35。7亿千米的宇宙之后,土星探测船卡西尼·惠更斯号终于进入土星轨道,展开了为期4年、环绕土星76圈以及对部分土星卫星的探测任务。土星是太阳系
<正> 近年来,作为电脑的心脏构件——芯片的革新可谓日新月异。不仅仅是它的运转速度快,而且功能迅速扩大。会看的芯片最近,一种“通用视觉处理器”(GVPP)芯片由法国影像技术
随着样条插补在数控系统中的广泛应用,高速高精加工已经成为当今制造业领域的新要求。一些高档的商用数控系统已经实现了多种样条曲线的插补功能。相比传统的微小线段和圆弧