基于概率分布的异常数据发现与识别算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:biangei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于异常数据的出现会导致统计分析发生显著变异,使得样本对总体的推断、控制与预测等工作产生不准确或者出现错误,因此有效的检测、追踪和防治异常具有重要的意义。首先提出异常数据的概念与定义,并且给出以"对象与属性"的描述方式定义了数据存在的结构形式。然后提出并分析关于理论分布与属性数据分布之间的相似度概念,建立属性数据分布的相似性求解算法。通过求得的相似分布和文中定义的可接受频率值,设定自适应门限阈值,最终建立以概率分布发现与识别单属性异常数据的算法。通过算法计算提高了数据的合理性与有效性,为数据挖掘处理提供了
其他文献
我国合同法和司法解释确定了违约金过高的多种综合标准,但在理论以及司法实践中认识并不统一。本文从违约金过高的认定、调整时考虑哪些因素以及程序性规定等若干方面进行剖
测定了蒙脱土对聚羧酸超塑化剂(PCE)分散性能的影响,研究了蒸馏水和水泥滤液中蒙脱土对PCE的静态吸附和动态吸附行为,拟合了吸附过程的动力学模型.结果表明:水泥中掺入蒙脱土会导致
由于中国和印度在文化、信仰等方面存在着差别,因此导致了两国在思维模式上也存在着很大的差异性,通过对中印两国文化的某些方面进行比较来分析中印思维方式存在的差异性,进一步
人工全膝关节置换术(total kenn arthroplasty TKA)是应用高科技手段制成人工膝关节假体替代病损的膝关节。TKA前后的康复治疗直接影响手术效果,术前拟定康复整体方案和计划,训练
目的研究老年慢性心力衰竭(CHF)患者血浆内皮素-1、血清Ⅰ型前胶原羧基端肽(PⅠCP)、Ⅲ型前胶原氨基端肽(PⅢNP)含量的变化及其临床意义。方法采用放射免疫分析法分别测定心
为了实现人机交互界面的高效率开发,设计了基于实时操作系统的通用GUI设计平台,对该平台所采用的命令/数据传输算法和交互界面/主控端同步算法进行研究.使用S3C2440处理器直
交际焦虑是影响学生学习的一个相对重要的心理因素。文章以东盟来华留学生为调查对象,从课堂口语表达、课堂上师生的交流和东盟留学生与中国学生的交流这三个方面分析了东盟来
近日,来自美国漫威商业大片《复仇者联盟4》火爆登陆国内各大院线,一时观者如云。据猫眼统计,4月24日凌晨,将近326万人同时观看“复联4”首映,由此也打破了中国影史零点场三大纪录
报纸
车辆的主动安全系统能够有效地维持车辆的稳定性,防止车辆发生侧滑、侧翻、碰撞等危险,对保护驾驶员及乘客的生命安全发挥着重大作用。在辅助驾驶技术和自动驾驶技术的发展中,车辆的稳定性是其中重要的一环。车辆行驶过程中,整车实际质量与转动惯量是不能精确获取的,这就导致了系统不确定性的存在,车辆稳定性控制器的设计过程中考虑参数的不确定性是十分必要的。本文采用分层控制的结构,上层控制器用于求取维持车辆稳定运行的
用常压MOCVD方法我们在蓝宝石,Si衬底上,成功地制备出GaN单昌薄膜材料,取得了GaN材料的初步测试结果,纯度GaN为n型,载流子浓度为10^^17-10^18cm-^-3,迁移率为200-350cm^2/V.s.双晶衍射半峰宽为7‘,室温PL光谱本征发光波长为370nm,并首次观察到掺ZnGaN呈