基于GA和信息熵的文本分类规则抽取方法

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:luyang123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域。现有的文本分类方法,大多是基于向量空间模型的算法。这些算法很难适用于大规模的文本数据集。为此,我们提出了一种基于遗传算法和信息熵的文本分类规则抽取方法。在该方法中,信息熵技术用来辅助遗传算法初始种群的生成。遗传算法和信息熵的有效集成,极大地提高了该混合方法的分类效率。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快。
其他文献
商标权的国际保护等四则1.《保护工业产权的巴黎公约》工业产权主要反映专利权和商标权。巴黎公约有关商标权国际保护的主要内容包括:①国民待遇原则。在商标权方面,给予每个成员
<正>本项目位于被誉为"重庆最美一条街"的中山四路,坐落在中山文化产业园A栋建筑和B栋建筑的四楼。设计的重点在于打造一个丰富有趣又高效的新形式办公空间。设计师对于共享
通过对煤泥物理特性及原煤和煤泥除铁的差异分析,确定了煤泥燃料输送系统对除铁工艺的要求和煤泥除铁工艺的布置方案,通过对除铁设备的选型及其技术参数的确定,根据现场条件,合理
<正>2006年11月3日,“中国木版年画保护与发展座谈会”在西安召开,这是在由中国非物质文化遗产保护中心和陕西省文化厅联合主办的“首届全国木版年画联展”举办期间召开的,由
蚧虫在分类上属昆虫纲Insecta,半翅目Hemiptera,蚧总科Coccoidea。全世界已记录49科7500余种。在进化上它们与蚜虫的关系最为近缘,是重要的经济昆虫,大多数是农林、果树、花
每年有大批的学生进入高中继续学习。知识经济时代已悄然来临,传统的教学方法、教学模式和教育理念在新的课程变化中面临着巨大的冲击和挑战。随着社会的发展,促进人性的体现
目的建立了分别测定4种酮氨基酸钙含量的非水酸碱返滴定法。方法取样品,加入过量高氯酸滴定液(0.1mol/L)至完全溶解,再以丙酮作稀释剂,以甲醇钠滴定液(0.1mol/L)进行非水电位
正确的目标是系统良性循环的前提条件。经济全球化背景下经济增长的前提由“蛋糕论”变为“无限膨胀论”,企业在无疆域的市场竞争中要关注价值的效率性增长。在此前提下,已有的
目的对扩张型心肌病合并心律失常的临床情况和护理进行探讨。方法回顾分析我院收治的51例扩张型心肌病合并心律失常患者的临床资料,总结本组患者的临床护理措施及预后情况。
针对2007年全国大学生电子竞赛F题-电动车跷跷板的设计要求,系统采用凌阳16位单片机(SPCE061A)和飞思卡尔公司MC9SDG128作为电动车跷硗板的检测和控制核心,通过PTR8000+组成