【摘 要】
:
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。
【机 构】
:
中国科学院软件研究所,中国科学院研究生院
论文部分内容阅读
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。
其他文献
研究宏观网络安全数据挖掘系统的目的是保护大型网络中关键网络基础设施的可用性、机密性和完整性。为此,首先提出了一种宏观网络数据挖掘的系统框架;然后分析了宏观网络挖掘子系统和态势分析子系统;最后利用网格计算技术实现了该平台,并给出了其运行环境。该系统具有可扩展性,能有效进行宏观网络的数据挖掘和实时势态感知。
作为一种新的计算模式,DNA计算有着强大的计算能力,编码问题在DNA计算中占据重要的位置,有效的编码设计能够提高DNA计算的可靠性。基于纠错码编码理论,提出了一种新的DNA编码方法,该方法可以找出具有一定长度且满足汉明距离约束的DNA编码序列。最后,给出了该算法的仿真,结果表明了该算法的有效性。
为了缩短系统的响应时间和提高文件的下载速度,基于U-Boot设计和开发了CrystalBoot引导程序。通过在Bootloader中增加开机动画显示、充电管理和基于USB的文件下载功能,CrystalBoot能够快速地对用户的开机和充电操作进行响应,提高代码下载和调试效率,更好地满足了用户及开发人员的需求。
根据小波变换系数与图像边界的关系,提出了一种基于二进小波变换的图像去噪算法。首先用二进小波在不同尺度上分解图像,在低频部分上提取图像边界,根据图像边界与小波系数的关系,估计对应尺度上高频部分的噪声的方差,用Oracle估计子估计图像的二进小波系数,用估计出的二进小波系数重建图像。实验表明,该算法能够有效地去除各种分布的图像噪声。
介绍了基于Intel IXP2350网络处理器实现的一种新的入侵检测系统架构——具有协同人工免疫特性的三层防御入侵检测系统。将基于主机的检测和基于网络的检测结合起来,如人体免疫系统一样,为计算机系统提供综合的、多层次的保护。它使用网络处理器作为数据分析引擎。充分利用了Intel IXP2350网络处理器的可编程高速并行处理特性,使入侵检测系统具有更强的灵活性和可扩展性。
首先对传统集合操作进行了扩展,提出基于扩展集合操作的最大频繁项集生成算法FIS-ES,并从理论和实验上对算法的复杂度进行了详细的分析。实验表明,在最小支持度较小的情况下,FIS-ES比Apriori算法具有更快的挖掘速度、更少的空间占用等优点,与Apriori有很好的互补性。
多重序列比对是生物信息学特别是生物序列分析中一个重要的基本操作。提出求解多重序列比对问题的蚁群算法,利用人工蚂蚁逐个选择各个序列中的字符进行配对。在算法中,蚂蚁根据信息素、字符匹配得分以及位置偏差等信息决定选择各序列中字符的概率,通过信息素的更新与调节相结合的策略较为有效地解决了局部收敛的问题,加强了算法寻求全局最优解的能力。另外在该算法的基础上,提出了基于分治策略的多序列比对蚁群求解算法,不但减
提出了一种视频结构挖掘的概念框架和视频结构挖掘系统框架,在概念框架中对视频结构挖掘相关概念给出了规范化的定义,视频结构挖掘框架包括的主要内容有视频基本结构挖掘、视频语法结构挖掘和视频语义结构挖掘。最后讨论了视频结构挖掘中发现的结构模式和知识的具体应用,包括指导视频的组织与管理、实现基于内容的个性视频推荐和改善视频摘要系统。
从分析中医八纲辨证神经网络的不足出发,在基于Meta种群理论免疫遗传算法(MIGA)的基础上设计了一种优化中医八纲辨证神经网络参数的免疫遗传算法——MIGA-1优化算法。实验结果表明,以MIGA-1算法作为参数优化机制的中医八纲辨证神经网络具有更好的自我适应能力,减少了人为设定参数的随意性。
将蚁群优化算法(ant colony optimization algorithm,ACO)引入基因选择领域,并用基因与类别的相关性分析所得值来初始化最优化问题,缩短了找寻最优解的时间;以基因子集整体的样本辨别能力与子集中基因之间的平均距离的线性表达作为目标函数,有利于在找到关键基因的同时消除冗余;同时,由于目标函数不采用分类准确度,大大降低了计算复杂度,提高了方法的灵活性和适应性。