论文部分内容阅读
互联网是人类科技成果中最耀眼的明珠之一,对人类社会产生着深刻、全面的影响。由于互联网上不同数据源对客观世界的相同实体提供的观察值经常冲突,一致性差,人们先要进行数据融合,才能获得最可信的信息,这个过程被称为真值发现。本文对冲突Web数据融合中的Web数据冲突检测、冲突Web数据的真值发现两个关键问题进行了系列研究。 本文的主要创新有: 1、提出数据源敏感度定义方法,采用提供相同词项的待检测数据不在同一数据源中的概率作为词项的数据源敏感度,用数据源敏感度对词项权重进行修正,提出了新的XML数据相似度度量方法。实验结果验证了新方法在Web冲突数据检测中的有效性。 2、为了克服观察值所含真值信息的不对称性问题,提出了一种基于模糊偏序关系支持度计算模型的真值发现算法,并实验验证了新算法的有效性。 3、将观察值可信度问题归结为观察值的后验概率分布问题。在贝叶斯分析的基础上,推导出数据源可信度与观察值可信度之间的关系模型,提出了一种新的冲突Web数据真值发现算法,并实验验证了算法的有效性。 4、以数据敏感度、明确度代替准确度与精确度建立数据源质量模型,合理地处理了数据源提供错误描述与提供空值对数据源质量产生的不同影响,提出了一种新的冲突数据源质量评价算法。实验数据表明新的评价算法在用于真值发现时发现了更多真值;同时,数据源质量评价结果误差也更小。 上述创新,部分被应用在某大型电网集团数据资源管理平台项目建设中,解决了主数据管理中的主数据冲突检测、主数据生成等项目建设关键技术问题。 本文也对多真值发现、分阶段的冲突Web数据真值发现等问题进行了研究。