论文部分内容阅读
随着因特网的发展,Web已经成为人们获取信息的一个重要来源.如何实现Web信息的集成是当前信息领域的一个热点研究问题.本文围绕Web信息集成从Web信息提取,Web对象版本权威性和模式映射三个方面进行了深入研究.
wrapper对网页结构适应性是衡量wrapper生成方法优劣的重要标准.wrapper生成方法大体上可分为三种:wrapper程序语言法、归纳学习法和自动生成法.其中自动生成法对网页结构适应性最好.这类方法利用数据记录的相似性实现信息提取.尽管当前方法从不同角度对相似性进行了阐述,但它们都将相似性解释为数据区域的相似.在此解释下,它们都采用自项向下的提取策略.该策略带来了两个附加假设,连续性假设和独立性假设.这两个假设使得wrapper只能提取平行型数据记录,不能提取相交型数据记录.我们提出了自底向上的提取策略,将相似性解释为信息点关联的相似,避免了连续性假设和独立性假设,提高wrapper页结构适应性.
当前wrapper还面临着数据记录不完整的问题.在网页中数据记录是完整的,但wrapper可能遗漏数据记录中一些重要属性.为了解决这个问题,我们提出一种交互式的wrapper生成方法.用户定义被提取数据的模式,wrapper在给定模式的指导下提取数据记录.wrapper不是通过网页结构判断数据记录是否完整,而是通过数据记录与用户给定模式的比较来判断.
实现以上方法的关键在于我们提出了基于网页布局的信息提取技术.我们通过网页的嵌套、对齐和距离等布局信息挖掘网页信息间的语义联系.为此我们定义了网页的嵌套表格模型,并在嵌套表格模型上定义了信息点的相关性以及相关性度量.最后我们通过关联的相似性提出了数据记录的优化算法.通过对大量网页的测试,实验结果表明我们提出的方法是高效可行的.
Web中的数据质量良莠不齐,真实信息和虚假信息混杂,有效信息和冗余信息并存,因此如何去芜存菁是Web信息集成的一个关键问题.对此我们提出了对象版本权威性计算模型,即VersionRank模型.VersionRank模型综合考虑了一个对象在不同网页中版本权威性的相互影响以及同一网页中不同对象版本权威性的相互影响.我们给出了对象边传播因子和网页边传播因子的统计意义.实验表明通过权威性计算,我们可以得到更准确的对象版本.
Web信息是动态变化的,不仅数据内容发生变化,数据模式也会变化.Web信息集成面临的一个重要问题是物理模式的动态变更造成虚拟模式和物理模式映射关系的不一致,导致应用程序不能正确访问物理数据.我们将这个问题分解为映射失效问题和映射不全问题.为了解决这两个问题,我们提出了条件依赖的理论.通过条件依赖,我们得到了映射调整算法.该算法不仅可以处理物理模式的变更还可以适当变化后处理虚拟模式的变更.我们的算法解决了映射失效和映射不全问题,而且对映射的调整是完备的.