多源冲突Web数据融合中的真值发现问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：zhouyong910

【摘要】

：

互联网是人类科技成果中最耀眼的明珠之一，对人类社会产生着深刻、全面的影响。由于互联网上不同数据源对客观世界的相同实体提供的观察值经常冲突，一致性差，人们先要进行数据融

【作者】

：

王继奎

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

web技术数据融合冲突检测真值发现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网是人类科技成果中最耀眼的明珠之一，对人类社会产生着深刻、全面的影响。由于互联网上不同数据源对客观世界的相同实体提供的观察值经常冲突，一致性差，人们先要进行数据融合，才能获得最可信的信息，这个过程被称为真值发现。本文对冲突Web数据融合中的Web数据冲突检测、冲突Web数据的真值发现两个关键问题进行了系列研究。　　本文的主要创新有:　　1、提出数据源敏感度定义方法，采用提供相同词项的待检测数据不在同一数据源中的概率作为词项的数据源敏感度，用数据源敏感度对词项权重进行修正，提出了新的XML数据相似度度量方法。实验结果验证了新方法在Web冲突数据检测中的有效性。　　2、为了克服观察值所含真值信息的不对称性问题，提出了一种基于模糊偏序关系支持度计算模型的真值发现算法，并实验验证了新算法的有效性。　　3、将观察值可信度问题归结为观察值的后验概率分布问题。在贝叶斯分析的基础上，推导出数据源可信度与观察值可信度之间的关系模型，提出了一种新的冲突Web数据真值发现算法，并实验验证了算法的有效性。　　4、以数据敏感度、明确度代替准确度与精确度建立数据源质量模型，合理地处理了数据源提供错误描述与提供空值对数据源质量产生的不同影响，提出了一种新的冲突数据源质量评价算法。实验数据表明新的评价算法在用于真值发现时发现了更多真值;同时，数据源质量评价结果误差也更小。　　上述创新，部分被应用在某大型电网集团数据资源管理平台项目建设中，解决了主数据管理中的主数据冲突检测、主数据生成等项目建设关键技术问题。　　本文也对多真值发现、分阶段的冲突Web数据真值发现等问题进行了研究。

其他文献

基于半监督的实体关系抽取技术研究与实现

信息抽取就是将无结构化的信息转换为结构化或者半结构化信息的过程。目前大部分信息抽取系统是从文本中抽取特定的实体信息，包括时间、机构、地点等。自然文本中不仅蕴含了大

学位

自然语言文本二元关系模式词语相似度实体关系抽取全文检索模式匹配

基于Linux的双机热备份系统的研究与设计

随着计算机技术的迅速发展,企业越来越依赖于计算机系统和网络技术,需要企业服务器为客户连续的提供服务。高可用性(High Availability,HA)越来越受到人们的重视。尤其是近年

学位

双机热备份双机热备份LinuxLinux高可用性高可用性故障恢复故障恢复服务器服务器服务接管服务接管

动力环境监控系统LSC数据采集和配置管理模块的设计与实现

本文以中国移动通信机房动力环境集中监控系统规范为蓝本,参照了国内外监控系统的最新思想,并针对旧系统的缺点,对动力环境监控系统的配置管理模块以及数据采集模块进行升级

学位

移动机房移动机房环境监控环境监控动态连接库动态连接库I/O完成端口I/O完成端口采集模块采集模块配置机制配置机制

面向立体图像的显著目标检测技术研究

学位

三角网格模型的逆向细分研究

本文研究了三角网格模型的逆向细分问题。由于密集三角网格模型数据量很大，使得其在很多应用中受到限制，例如网络方面的应用中，不适宜传输密集三角网格模型，所以有必要研究密集三

学位

三角网格模型逆向细分网络传输QEM网格算法二次距离函数

一种特征驱动的应用定制方法及工具支持

领域工程是软件复用研究的一个重要方向。领域工程侧重在一个领域内系统性的、有计划的复用。其基本思想是通过领域分析，领域设计，领域实现等阶段开发出领域核心资产库；在开发应

学位

软件复用领域工程特征模型体系结构映射关系

基于聚类与遗传算法的软件质量分析

软件质量是软件使用者最为关心的问题之一，如何控制软件质量，开发出高质量的软件成为软件可靠性研究领域的热点。有效的软件质量预测可以在软件生命过程早期指导建立高效可靠的

学位

聚类算法遗传算法软件质量软件度量预测模型

基于粗糙集的关联规则约简

数据挖掘是近年来随数据库和人工智能发展起来的新技术，其目的是从大量的、不完全的、有噪声的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知

学位

粗糙集理论关联规则知识约简数据挖掘挖掘算法

基于图像特征信息的视频QoE半参考评估方法

随着互联网的快速发展,用户对高质量视频的需求正不断增长,视频通信业务正经历着持续的发展。然而由于信道拥塞、延迟等原因造成的比特错误和分组丢失现象,视频流在传输过程

学位

视频感知质量半参考显著性纹理小波变换

基于教学资源库构建自动答疑系统问题库的关键技术研究

随着我国教育信息化建设的不断推进，数字化教育资源库的发展同益成熟，积累了大量知识丰富的教学资源。这些资源基本上采用了基于学科、年级、知识点等组织方式，提供基于“关键字

学位

教学资源库自动答疑系统相似度计算匹配模型

多源冲突Web数据融合中的真值发现问题研究

与本文相关的学术论文