多源冲突Web数据融合中的真值发现问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhouyong910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是人类科技成果中最耀眼的明珠之一,对人类社会产生着深刻、全面的影响。由于互联网上不同数据源对客观世界的相同实体提供的观察值经常冲突,一致性差,人们先要进行数据融合,才能获得最可信的信息,这个过程被称为真值发现。本文对冲突Web数据融合中的Web数据冲突检测、冲突Web数据的真值发现两个关键问题进行了系列研究。  本文的主要创新有:  1、提出数据源敏感度定义方法,采用提供相同词项的待检测数据不在同一数据源中的概率作为词项的数据源敏感度,用数据源敏感度对词项权重进行修正,提出了新的XML数据相似度度量方法。实验结果验证了新方法在Web冲突数据检测中的有效性。  2、为了克服观察值所含真值信息的不对称性问题,提出了一种基于模糊偏序关系支持度计算模型的真值发现算法,并实验验证了新算法的有效性。  3、将观察值可信度问题归结为观察值的后验概率分布问题。在贝叶斯分析的基础上,推导出数据源可信度与观察值可信度之间的关系模型,提出了一种新的冲突Web数据真值发现算法,并实验验证了算法的有效性。  4、以数据敏感度、明确度代替准确度与精确度建立数据源质量模型,合理地处理了数据源提供错误描述与提供空值对数据源质量产生的不同影响,提出了一种新的冲突数据源质量评价算法。实验数据表明新的评价算法在用于真值发现时发现了更多真值;同时,数据源质量评价结果误差也更小。  上述创新,部分被应用在某大型电网集团数据资源管理平台项目建设中,解决了主数据管理中的主数据冲突检测、主数据生成等项目建设关键技术问题。  本文也对多真值发现、分阶段的冲突Web数据真值发现等问题进行了研究。
其他文献
信息抽取就是将无结构化的信息转换为结构化或者半结构化信息的过程。目前大部分信息抽取系统是从文本中抽取特定的实体信息,包括时间、机构、地点等。自然文本中不仅蕴含了大
随着计算机技术的迅速发展,企业越来越依赖于计算机系统和网络技术,需要企业服务器为客户连续的提供服务。高可用性(High Availability,HA)越来越受到人们的重视。尤其是近年
本文以中国移动通信机房动力环境集中监控系统规范为蓝本,参照了国内外监控系统的最新思想,并针对旧系统的缺点,对动力环境监控系统的配置管理模块以及数据采集模块进行升级
学位
本文研究了三角网格模型的逆向细分问题。由于密集三角网格模型数据量很大,使得其在很多应用中受到限制,例如网络方面的应用中,不适宜传输密集三角网格模型,所以有必要研究密集三
领域工程是软件复用研究的一个重要方向。领域工程侧重在一个领域内系统性的、有计划的复用。其基本思想是通过领域分析,领域设计,领域实现等阶段开发出领域核心资产库;在开发应
软件质量是软件使用者最为关心的问题之一,如何控制软件质量,开发出高质量的软件成为软件可靠性研究领域的热点。有效的软件质量预测可以在软件生命过程早期指导建立高效可靠的
数据挖掘是近年来随数据库和人工智能发展起来的新技术,其目的是从大量的、不完全的、有噪声的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知
随着互联网的快速发展,用户对高质量视频的需求正不断增长,视频通信业务正经历着持续的发展。然而由于信道拥塞、延迟等原因造成的比特错误和分组丢失现象,视频流在传输过程
随着我国教育信息化建设的不断推进,数字化教育资源库的发展同益成熟,积累了大量知识丰富的教学资源。这些资源基本上采用了基于学科、年级、知识点等组织方式,提供基于“关键字