基于改进的最大熵均值聚类方法在文本分类中的应用

来源 :计算机应用研究 | 被引量 : 15次 | 上传用户:djnm080910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。
其他文献
为解决现有提高重复数据消除系统吞吐量方法的局部性依赖和多节点依赖问题,提出了一种基于文件相似性分簇的重复数据消除模型。该模型将传统平面型索引结构拓展为空间结构,并依据Broder定理仅选择少量最具代表性的索引驻留在内存中;同时对索引进行横向分片并分布到完全自治的多个节点。实验结果表明,该方法能有效提高大规模云存储环境下重复数据消除性能和平均吞吐量,且各节点数据负载量均衡,故该模型可扩展性强。
为了提高假肢控制系统肌电信号的分类准确率,提出一种新的基于文化算法的特征选择方法,通过该方法选择出最佳特征向量,然后用线性分类器检验其分类性能。利用表面差分电极从人体上肢四块肌肉采集四通道的肌电信号,对十个健康受试者进行八个动作的肌电信号模式分类实验,并同时用标准遗传算法来与文化算法作比较。实验结果表明,文化算法与遗传算法相比,特征维数更小,分类准确度更高。
在一些基于本体的动态应用中,需要描述组合动作和变化域的时间特性。为了对这类应用建模,通过整合动态时序逻辑和描述逻辑,提出一类描述逻辑扩展。分析了该类扩展的基本形式DLTLALC的语法和语义,并提出一种可终止的tableau算法判别DLTLALC公式可满足性。利用该类扩展,可以表达组合动作执行过程中域变化的时间特性,该类扩展为语义Web服务等动态应用建模和推理提供了一条有效途径。
为了提高整个网络系统的安全防御能力,提出了一种新的基于多移动agent的分布式恶意进程协同识别机制,使网络中的服务器和多个终端节点有机地协同工作,终端主动地向服务器提交发现的可疑进程报告,由专家来统一鉴别,服务器也主动地收集用户节点的信息和更新用户终端的进程信息库,从而将传统单机防御提升到网络级的协同防御。为了进一步提高系统性能,机制引入了多移动agent来实现节点的状态监控、协同工作和信息主动收
装备维修任务分配问题是典型的多约束/多目标/非线性规划问题,利用传统方法无法求解,因此提出了一种约束多目标粒子群算法,并运用该算法对装备维修任务分配问题进行了优化求解。仿真结果表明,约束多目标粒子群算法针对该问题,在不同参数和约束条件下都有很强的收敛寻优能力,能快速产生多个非支配解,是一种高效的算法,对实现装备维修任务分配的客观量化优化决策有重要作用。
通过对何俊杰等人提出的一个基于离散对数代理盲签名方案进行分析,从中发现该方案会引起原始签名人的公钥替换攻击。为了解决该方案的安全缺陷,提出了一种新的改进方案。分析表明,改进后的新方案可以抵抗原始签名人的公钥替换攻击,并且在基于离散对数问题下保证了代理盲签名的所有安全性要求,而且提高了效率。
恶意代码变种给信息系统安全造成了巨大威胁,为有效检测变种恶意代码,通过动态监控、解析系统调用及参数,将不同对象操作关联到同一对象,构建对象状态变迁图,然后对状态变迁图进行抗混淆处理,获取具有一定抗干扰性的恶意代码行为特征图。最后,基于该特征图检测未知代码。实验结果表明,该方法能够有效抵抗恶意代码重排、垃圾系统调用等混淆技术干扰,而且误报率低,在检测变种恶意代码时具有较好的效果。
针对传统的搜索引擎无法正确搜索到Deep Web中隐藏的海量信息,对Web数据库的分类是通向Web数据库分类集成和检索的关键步骤。提出了一种基于权值调整技术的Deep Web数据库分类方法,首先从网页表单中提取特征;然后对这些特征使用一种新的权重计算方法进行估值;最后利用朴素贝叶斯分类器对Web数据库进行分类。实验表明,这种分类方法经过少量样本训练后,就能达到很好的分类效果,并且随着训练样本的增加
为了能快速有效地识别出应用层DoS攻击,提出一种基于HMM的应用层DoS攻击检测方法。该方法以应用层协议关键词和关键词之间的时间间隔作为输入,采用隐马尔可夫模型来快速检测应用层DoS攻击。实验结果表明,该方法对应用层上的多种DoS攻击都具有很高的检测率和较低的误报率。
针对单种群差分进化算法易出现早熟收敛的问题,提出了一种改进的动态多种群并行差分进化算法。该算法首先利用佳点集方法产生初始种群以增强算法的稳定性和全局搜索能力。基于个体的适应度将种群分为三个子种群,并分别执行采用不同实验向量产生策略和控制参数设置的差分进化算法,既保持了各个子种群算法的独立性和优越性,又不增加算法的复杂性。仿真实验结果表明该算法具有较好的寻优性能。