基于聚类和多重回归的空值估计研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:root1234789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今关系数据库理论模型已经近乎完美,各种关系数据库系统被广泛地运用于社会生活的各个领域。传统的关系数据库理论建立在信息完全的基础之上,不允许缺失信息的存在,这和早期的数据库管理系统的处理能力是相适应的。但是由于客观世界的复杂性,信息缺失、不确定信息以及模糊信息是普遍存在的。数据库作为表达现实世界的手段,不可能回避信息缺失问题。本文主要针对关系数据库中的空值估计问题进行研究,探讨了一种基于聚类和多重回归的空值估计方法。该方法首先对数据表中的数据进行挖掘,找出与被估计属性相关联的属性集,同时给出这个属性集对数据的预划分。由于该过程仅利用数据本身提供的消息,而不需要其他任何的先验知识,在保持分类能力不变的前提下,通过知识约简,得到相关联的属性,这样得出的条件属性比较客观,避免了由专家决定条件属性时由于主观性造成的一定误差。其次根据所得预划分作为初始化进行聚类,再基于所得分簇和多重回归给出一个估计关系表中空值的方法。由于该过程中采用自动聚类的思想,有目的地通过一定的调整步骤获得各聚类,再使用拟合回归的方法逼近原分布函数,估值的结果具有较高的准确率。最后利用平均绝对误差率来衡量算法估值的准确率,并给出了算法的主要实现步骤和流程。
其他文献
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。但由于年龄变化引起人脸形状和纹理上的变
视频会议系统是指通过现有的各种电气通讯传输媒体,将人物的静、动态图像、语音、文字、图片等多种资料分送到各个用户的计算机上,使得在地理上分散的用户可以共聚一处,通过
用户以社会化媒体(Web2.0的媒体)的方式获取更加多样化的信息,作为信息的主要发布者用户,通过发布感兴趣的某些方面的信息给用户建立社会联系,在直接交互的用户之间建立自己
遗传算法作为一种基于自然选择和遗传理论的通用优化算法,已成功应用于组合优化、机器学习、工程优化、图象处理、人工生命、自动程序设计等诸多领域。随着研究的不断深入,遗
三维图形主要是通过三维建模软件创作或者通过三维扫描仪进行扫描来获取的。如果用三维建模软件制作复杂的三维模型,则需要较熟练的技能以及细致耐心的操作,是耗时、费力和繁复
电子商务的发展,需要安全性好同时效率高的电子支付方式来支持。目前主要被采用的SSL协议和SET协议虽然都有优点,但各自缺点明显,已经成为电子商务进一步发展的瓶颈。如何优
静态图像中的人体姿态估计是给定检测图像后根据行人检测的结果确定人体不同部件的位置并得出方向、尺度信息,是后续行为理解的基础。由于人体自身的灵活性加上背景的复杂性,
手语是一种手势动作语言,通过手的运动并附以适当的表情或姿势来表达意思,主要用于聋哑人之间的交流。随着社会信息化的不断提高,聋哑人也迫切需要更多的信息,来不断地改善或
随着因特网服务应用的持续发展,用户对移动性的需求迅速增长。为了解决Internet的移动性问题,基于IPv4的IPv6协议被提出和研究。同时,基于移动网络的运营商们都是各开门户,不
网格是构建在互联网上的一组新兴技术,通过它可以把分散在不同地理位置的资源整合起来实现各种资源的全面共享。它本质上解决了在动态变化的多个虚拟机构间共享资源和协同工