论文部分内容阅读
Web数据集成系统通过有效整合来自不同Web数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析应用提供重要的高质量的数据支撑。然而,现实世界和反映现实世界的Web世界中的各种数据是变化和相互关联的。“知己知彼,百战不殆”,在各种Web数据集成的应用场景中,及时获取事物的演变和关联信息是进一步分析和决策的前提。然而,目前Web数据集成系统采集的数据主要来源于数据量大、质量相对较高的Deep Web站点,并将它们整合成具有统一模式的结构化数据。在海量的Web数据背景下,Web数据集成系统所提供的数据存在以下局限性:1)Web上的数据存在多样性,相同的事物在不同的网站上的描述不一定相同,甚至在同一个网站上随时间的变化描述也会不尽相同,这使得数据采集的时候进行错误的数据对齐甚至遗漏一些有用的数据,从而影响收集的数据的质量。2)世界是动态的,相同的事物在不同的时刻具有不同的状态,建立事物在不同时刻的状态的演变过程能帮助用户掌握事物更全面的信息,有助于进一步分析和决策。但是Web数据具有多样性和不完整性的特点,用户很难在Web数据集成系统中发现事物状态的时间顺序。3)Web数据集成系统中的事物之间存在丰富的关联,比如两个公司之间存在竞争或者合作关系,这些关联对后续分析和决策有重要意义,但是由于Web数据集成系统的数据采集于有限的数据源,仅仅从Web数据集成系统中很难挖掘出来这些有意义的关联信息。本文以提高Web数据集成系统中数据的质量、提供目标实体全面丰富的信息为目标,针对Web数据集成系统中实体信息的演化与关联问题展开研究,主要贡献如下:(1)本文提出一种结合语义标注和相似度匹配的实体模式动态更新的方法。该方法一方面能克服定制的实体模式无法随着Web页面中半结构化数据的描述信息的变化而逐步丰富Web实体模式的不足,另一方面也能有效解决Web实体模式与目标页面中Web数据对象的属性标签间的模式匹配问题。首先根据对同一站点的Deep Web详细页面的观察得知,将多个页面中的所有数据进行聚类分组,而高频出现的通常为该组的描述信息,用这些描述信息作为预标注结果。同时,利用条件随机场模型(CRF)为数据分组分配Web实体模式中已定义的标签,将预标注结果与CRF模型标注的结果进行匹配确定最终标注的结果,匹配不成功的描述信息将作为实体的新的模式信息(新属性或属性的新同义词)被添加到领域模型中。特别的,在进行标签匹配时,有效利用了集成系统中已集成的数据来提高匹配的准确性。实验结果表明,该方法在有效丰富实体的模式信息的同时,也提高了目标页面中的Web数据对象的到集成系统中的属性对齐的准确性。(2)为了记录实体属性值的演化过程,本文提出一种基于Markov逻辑网的实体属性值的时序确定方法。该方法基于有效的实体统一,对Web属性值所属的数据源以及Web数据本身特点的观察和分析的前提下,利用数据源的更新频率、数据源之间的依赖关系、数据源对提供的数据的更新频率(同一个数据源对不同的数据的更新频率不一定相同)等特征,利用Markov逻辑网(MLN)在对不确定的知识进行推理方面的优势,将所有对确定属性值的时间顺序有用的特征作为证据谓词,定义MLN中的谓词公式作为推理规则,对给定的属性值的时间先后关系进行推理。该方法一方面从属性值上而不是整个实体上考虑信息的时效性,推理得到实体属性值的演化过程,对Web数据集成系统提供高质量的数据具有重要的意义。另一方面通过对Web属性值所属的数据源以及Web数据本身特点的观察和分析,结合领域内Web数据本身的语义及相关约束,综合运用多角度的特征和规则,保证了得到的Web属性值时序的有效性。(3)针对Web数据集成中的数据来自有限数据源和Web信息发布的随意性,提出一种两阶段聚类的Web实体语义关联发现的方法。该方法从搜索引擎的返回结果中挖掘发现Web数据集成系统中相关实体之间的丰富的语义关联。方法重点针对开放的关系抽取中不能区分一对实体之间的多种语义关联,分两个阶段对表示实体语义关联的上下文信息进行聚类,在第一阶段的聚类中,将每个与目标实体关联的实体相应的关联先按编辑距离和WordNet中的语义相似度进行初步分类,然后对这些分类进行层次聚类;第二阶段的聚类用于对上一阶段得到的语义聚类进行调整。由于Web上对相同关系的表示形式在通用的语义词典工具如WordNet(英文)和HowNet(中文)并不一定语义相似,因此聚类得到的结果可能存在将一种语义关系分成几个不同的集合的情形,针对这种情况,利用分布假设理论,即相同的分布暗示相同的语义,用迭代的方法对聚类结果进行调整,直至聚类结果趋于收敛。