结合新型文档频和二进制可辨矩阵的特征选择

来源 :计算机应用 | 被引量 : 7次 | 上传用户:jk224wang1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。
其他文献
问 where用来引导什么样的问句?Where is your book in?这个句子对吗?答 where意为“在哪里”,常用于引导对地点提问的特殊疑问句。回答的时候应选用适当的介词。例如:
根据地上部分干物质(DM)生产速度,将无芒雀麦的生长分为三个大的阶段:营养生长阶段、繁殖生长阶段和种子在成熟发育阶段。在繁殖生长阶段(约55d),由于增加了两个在蕴藏状态下的更强的活动
采用符号熵分析法,分析和讨论了经典的Logistic映射和Henon映射的类随机性强弱。先将离散混沌系统产生的实数序列转化为二进制序列,然后进行编码,计算其符号熵,绘制其符号熵图,并深入讨论了系统参数和初始值对符号熵的影响。数值仿真分析表明,符号熵法能定量区别不同离散混沌系统类随机性的强弱。同时作为随机源,Logistic映射比Henon映射好。
仿真研究IEEE802.11g无线网络环境下实时流媒体的性能,在分析和探讨支持实时流媒体应用时无线网络性能瓶颈的基础上,提出一种改进策略——主动弃帧。仿真结果表明,这一策略显著改善了网络性能,为实时流媒体在WLAN上的应用提供更好的服务质量。
介绍了群体智能的概念和特点,阐述了群体智能在图像处理领域的应用。在此基础上,从人眼的视觉结构以及仿生学的角度出发,对基于群体智能的图像处理方法的基本思想进行了深入的分析和探讨,并与传统的图像处理方法进行了比较。群体智能利用的是群体的优势,通过构造某种形式的子单元簇,使分布于图像环境中的个体以自组织的方式突现出图像本身所具有的某种特征。
中国是世界闻名的壁画古国之一,江苏地区亦拥有悠久的壁画传统。六朝时期的顾恺之、张僧繇,就留下了近乎神话的壁画创作传说故事。然而历代的战乱天灾,却使依附予建筑物的古
数据网格中数据副本的存在是为了获得对数据的更好的访问性能,同时也是为解决容错问题而采用的一种冗余技术,但系统复杂程度的增加会带来一系列不可预测的安全隐患。安全与容错是既相互统一,又相互矛盾的关系,应将它们综合起来加以研究。为此将数据副本机制与信息安全结合起来,提出一种决定数据资源副本数量的数学模型。该模型综合考虑服务提供者一方经济利益和声誉度,在合理的假设下对一个两目标的优化问题作了简化处理,通过
介绍了嵌入式网络终端的硬件系统和操作系统,通过分析电子邮件系统的原理和相关协议,设计了一款基于此嵌入式网络终端的电子邮件客户端软件。该软件系统逻辑清晰,界面友好,除具备
在社会经济与科学技术的发展中,电力系统是核心能源的支持者。社会经济体系对电力自动化系统通信网络的安全性与稳定性要求很高。本文介绍了无线通信技术的基本形式与概念,分析
<正>刘锡诚《二十世纪中国民间文学学术史》的学术和学术史地位,自出版以来,"学界内外已有共识"(陈泳超)。本栏目收录的六篇师生之间"各言其志"的坦诚对话,无论作为"书评"论