面向大数据的边界信息分类算法研究

来源 :信息技术与信息化 | 被引量 : 0次 | 上传用户:grace_925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据挖掘过程中边界信息分类精度较低且容易出现误分类的问题,提出了一种面向大数据的边界信息分类算法。从最小贝叶斯规则出发,首先采用三支决策规则对数据样本进行划分,然后通过Bagging集成学习对划分后的边界数据进行分类器训练,得到多个弱分类器,最后通过对基学习器加权投票输出投票结果,实现边界信息的正确划分。通过对多个数据集进行实验表明,该方法不仅能提高边界信息数据的分类精度,还能进一步降低边界数据的误分类风险。
其他文献
针对互联网中恶意域名攻击事件频发,缺乏对恶意域名的有效检测、分析并形成网络态势研判及预警。通过分析DNS日志挖掘信息,在传统黑名单检测的基础上,采用基于LSTM(长短期记忆)神经网络的方法来识别DGA恶意域名,并通过大量域名数据对模型进行训练优化,检测网络中存在的APT攻击、网络钓鱼和木马等恶意攻击事件。结果表明:与传统方法相比更加实时、高效、准确,进而快速分析网络态势情况,做到及时预警。
面向LR-WPANs的IEEE 802.15.4协议具有远距离的特性,面向WBAN的IEEE 802.15.6协议具有高速率的特性。针对复杂应用场景下对通信距离和通信速率的不同要求,在考虑两个特性的基础上提出双协议数字基带系统,使用Verilog语言编程,完成物理层(physical,PHY)和媒体访问控制层(medium access control,MAC)的设计与仿真,以Xilinx的Zynq系列FPGA开发板进行验证。实验结果表明,系统实现有效载荷大小为8 bytes的数据传输,通信协议可灵活切换
针对传统集热控制系统中温度控制精度低,具有较大滞后等问题,提出了一种基于双模糊控制算法的集热系统。从控制原理出发,通过前端温度传感器采集温度信息与设定温度值进行对比,经过对比后得出误差反馈值,双模糊控制器会根据此反馈值执行一系列既定的命令,通过不断地系统运行调节,最终达到用户预期值。通过Matlab软件中的Simulink部分建立集热仿真模型并进行仿真。结果显示,基于双模糊控制的集热控制系统,响应速度快、超调量小、稳定性好。
为了解决当前缺乏基于IPv6的网络日志数据分析系统,设计并实现了基于IPv6的网络日志数据分析系统,方便运维人员对系统的维护和网络流量的监控。系统首先使用TShark捕获区域内的数据包;然后将捕获的数据包采用Python解析,使用Highcharts记录实时网络流量变化。运维人员还可设置报警值,当数据包的数量超过报警值时,系统会弹出报警信息。另外,系统采用matplotlib库可视化地表现出指定时间段内的网络日志的情况,便于运维人员分析网络的运行情况并做出相应调节措施。
针对产品装配序列规划问题,提出了一种基于蚁群算法的装配序列规划方法。通过充分研究装配过程中的几何约束关系以及机械产品装配专业知识和人工装配经验,总结飞机机翼装配规则,结合蚁群算法建立了算法模型,并依次设计状态转移函数和信息素更新函数,设置合理的参数,在蚁群寻优过程中加入零部件筛选规则辅助蚁群选择最优解,最终获得优化装配序列,并以飞机机翼模型为实例,对该算法模型的可行性和准确性进行验证。
针对计算机相关专业学生通过修改代码中的变量、缩进换行等形式抄袭代码的情况,基于SpringBoot与JPlag、MySQL等技术开发了一套代码查重系统。系统中用户可以上传压缩包进行代码查重,教师可以发布任务,学生上传作业后系统进行收集并查重,为老师提供检测报告。对于代码查重,系统首先会对其进行语法解析,其次会对变量、方法、函数进行逻辑重构,能有效地抵抗变量重命名、代码重排,甚至应对冗余代码植入、控制及数据流混淆等稍复杂的混淆手段,更高效的找出抄袭内容。
图卷积神经网络是近期一类热门的网络表示学习模型,基于拓扑优化的图卷积网络通过网络辅助信息根据特定任务更新用于卷积的拓扑矩阵,从而能够更准确地学习到结构空间中节点间的关联关系。但这类模型忽略了节点属性的直接关联,无法充分利用节点属性信息进行节点的表示学习。节点属性是判别节点类别的一种重要信息,如何在进行拓扑优化的同时更有效的利用节点属性信息来学习更准确的类信息是一个亟待解决的问题。针对以上问题,提出了双空间拓扑优化图卷积网络(double space-topology optimization graph
目的分析不同基因型Prader-Willi综合征(PWS)患者临床生化特征和治疗效果的差异。方法回顾性纳入2017年5月至2018年12月于北京协和医院内分泌科门诊就诊的35例PWS患者,其中男20例,女15例,年龄[M(Q1,Q3)][3.0(0.8,10.0)]岁。收集患者的临床和生化资料,并采集外周血标本。提取患者外周血白细胞DNA,用甲基化特异性多重连接探针扩增技术(MS-MLPA)检测患
为了解决科研单位在内网条件下无法版本化管理和多人协同撰写文档的难题,构建了一套基于node.js的文档协作与版本化管理框架。设计了标准化文档结构,创新性地使用markdown标记语言搭配不同模板将文档的内容和结构进行分离,同时利用分布式版本控制系统Git实现离线版本管理和在线多人协作。结果表明,使用该框架能够方便地查看和比较同一份文档不同版本的内容,多人协同撰写的markdown文本也能转换为指定模板的word文档,可以有效提升科研团队的文档管理水平,增强协作效率。
现阶段,市场经济呈现出平稳发展态势,人们生活质量与收入水平有了显著提高,对生态环境发展十分重视,同时我国政府也积极推动可持续发展理念,强化对生态资源的保护力度。林业资源在生态资源系统中占据重要地位,通过积极开展林业管理工作,能够充分保护生态平衡,降低生态环境的恶化程度。林业是我国经济发展的重要组成部分,在新经济条件下,林业管理工作开展中还存在诸多问题,法律法规不健全、缺乏林业保护意识、管理人员综合素质低下,这些因素均不利于林业管理工作开展,当前林业管理工作面临一定压力与挑战。在新经济条件下,为强化林业管理