水平分布式数据背景异质性对分类算法的影响

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:gjsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和数据库技术的进一步发展,分布式计算环境的普遍存在促使分布式数据挖掘技术成为当今的一大研究热点。在实际的分布式环境中,数据不仅在物理上是分散的,而且具有背景异质性,现有的分布式数据挖掘技术能够对物理上分散的数据进行处理和分析,却没有解决背景异质性的问题,因而其应用范围受到局限。本文以水平分布式数据的背景异质性为研究对象,通过量化的测试这种背景异质性对具体分类算法,全局错分率和局部错分率的相对变化进行了研究。主要内容包括: ⑴介绍了数据挖掘技术发展历史,国内数据挖掘应用商务智能市场的发展背景和趋势,以及国内外分布式数据挖掘研究现状,课题来源和课题研究内容。 ⑵以数据挖掘的定义,过程以及对象为基础,研究了分类学习的两个基本过程,基于交叉验证法建立分类学习器,用错分率评估其准确性能的方法。分布式数据挖掘的发展需求和技术框架,探讨了分布式计算环境中,数据分散存储和水平分布的特点。 ⑶通过具体的商业虚拟企业水平分布式数据的特点研究,提出数据源之间的差异为背景异质性的概念;确定研究的对象是水平分布式数据的背景异质性,并根据问题研究对象确定了研究思路和方案,软件系统模型,最终建立问题研究的分析系统。 ⑷基于客户购买行为和心脏病诊断两个水平分布式实例数据集必要的预处理,参照交叉验证的方法确立软件系统分析方案,通过分析系统测试,分别对贝叶斯分类学习算法,函数分类学习算法,惰性分类学习算法和基于规则分类学习算法的全局错分率和局部错分率进行对比分析,最后,由此总结出四个数据背景异质性对分类算法影响的规律。
其他文献
近日,京城独具云南特色风情的北京新云南皇冠假日酒店为八方宾客精彩呈现了第五届“印象·云南傣味泼水节”。宾客们不仅与傣族小卜哨(傣族姑娘)和小卜冒(傣族小伙子)们一起
近年来,随着生活水平的提高,人们对精神方面的追求也随之提高。本文通过调查、研究贺州本土茶产业的历史和背景、茶产业的发展现状及其优势、贺州茶产业现存的问题和困境,提
脑出血(ICH)是常见的脑血管疾病,随着老龄化社会的到来,发病率呈逐年上升的趋势,据统计占急性脑血管病的20% ~ 30%,而且致残率较高[1].因此如何有效治疗ICH,最大限度促进受损神
某水利枢纽发电洞洞身工程围岩类别以Ⅲ,Ⅳ为主,通过生产性试验确定洞室开挖爆破的施工参数及施工工艺,指导发电洞洞身工程的开挖.试验表明爆破没有对爆破区岩体产生破坏性影
以验证限制性团体箱庭疗法对提升高职学生干部自信心水平的效果为目的,本研究对湖南安全技术职业学院学生会干部进行心理测试和访谈,根据学生意愿和时间安排选择8名成员进行
首届中国传媒领军人物年会暨第三届中国传媒创新年会在北京隆重开幕。本届年会主题是“创新成就传媒,人物引领创新”。年会由新闻出版总署主管的《传媒》杂志社主办,北京大学
智能粘度仪作为一个特定的计算机系统,在很多情况下,需要与外界进行信息交流与传递,所以自身存在扩充外部设备的需要。如果能够在智能粘度仪嵌入式平台上实现USB主机功能,则
随着互联网的迅速发展,流媒体应用的不断增长,网络流量与行为发生了极大的变化。网络数据是多维的复杂的,如何准确的统计用户行为,节约网络资源保证流媒体大规模应用成为迫切需要
现阶段,能源危机日益严峻,节能已经成为各行各业所面临的现实问题。针对这种情况,提出了一种在保证精确计量、成本低廉的前提下实现了智能化处理、人性化设计的油耗计量系统,
据数据统计,每年在全球范围内大约发生火灾600—700余万起,造成大概30万人死亡。现在已有采用无人机先观察火灾现场情况,再考虑采取何种救援措施的方法。但是火灾时会产生大