基于二次熵的互信息特征选取方法的研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:rrsmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础·提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能.
其他文献
扩展标记语言(XML)的出现,使得在异构环境下数据的交换和传输成为可能。在应用过程中,对传输中文档安全性的要求就显得异常重要。与XML紧密相关的是扩展样式表语言(XSL),其文档
通过Nb、V、Ti、Cu、Ni复合微合金化的成分设计,采用两阶段控制轧制生产工艺,八钢成功开发出风塔用Q345FTE-Z35钢板,在保证钢板强韧性的同时,获得了良好的抗层状撕裂性能,各
作者运用神经网络技术开发了一种对金融市场的现状与未来趋势进行评估的决策支持系统,并用道一琼斯工业股票价格平均指数的数据对系统进行了洲试。然后将预测的结果与传统的市
针对舞钢新轧钢厂热处理线炉底辊频繁断裂的问题,分析了现行炉底辊更换方法的优缺点,结合生产及现场实际,提出了简单易行的炉底辊在线更换方案,实现了不停炉更换炉底辊,不仅
Many compiler optimization techniques depend on which part code has been executed frequently. Profilingwill trace and record these information that a compiler n
大多数特征选择算法面临着对非一致性数据缺乏有效的处理的问题.本文提出了一种处理非一致性数据的方法,采用阈值将非一致性数据做归类处理,当某一类非一致性数据的某个取值
This paper tries to discuss one realizable mode of SW(Semantic Web). It is called NVS(Network-Virtual Society). SW is regarded as the next-generation Web. By ad
XML是当今流行的数据存储方式。传统的XML存储方式,是以流式文件的方式存储的。这样的方式有其优点.也有致命的缺点。我们基于SDML的存储方式,是以存储XML文档的结构为目的的存
Reinforcement learning allows agent that has no knowledge of an environment to cooperate more efficacious each other. This paper presents an approach for develo
本文提出了一种基于小波变换和RBF神经网络的天体光谱分类方法。首先利用小波变换除去谱线中的噪声、提取特征谱线;然后使用RBF神经网络分类,RBF网络的输入为提取的特征谱线。