一种基于信息量模型的文本挖掘改进算法

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:miaoym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依据信息论的思想,从文档信息量变化的角度,对文本聚类的过程进行了分析,研究了信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信息量模型的最小熵差算法.并对文中所提出的算法进行了仿真试验,结果表明最小熵差算法在聚类准确率上整体优于k-means算法和最小熵增加算法.“,”Probabilistic hierarchical clustering based on document information quantity. From an information theory angle,we study latent relations between document information quantity and document classification. A minimum entropy difference text clustering algorithm is proposed based on document information quantity. Experimental results showed that the algorithm has higher accuracy than most current algorithms like k-means and minimum entropy increase.
其他文献
并行化是提高大规模复杂问题求解效率的有效手段.该文在分析了粒子群算法(Particle Swarm Optimization,PSO)的并行性后,给出了PSO算法的并行实现,并将该并行化的算法在并行平台??联想深腾1800机群系统上进行测试.结果表明PSO算法的并行实现,显著地提高了算法的效率.“,”The parallelization is an effective way to improve the efficiency of large-scale complex problems soluti
该文采用STC89C52单片机为核心控制器,实现了电流预置、步进调节以及LCD液晶同步显示电流预置值和实测值等功能,系统采用闭环控制方案,输出电压、电流值通过精密电阻采样反馈
本文列举了微机械惯导系统组合导航的几项关键技术包括捷联导航算法、组合导航算法及传递对准算法,并逐一进行了说明。重点对捷联导航算法中姿态矩阵的四种解算方法进行了对
使用由清华大学设计和开发,并采用国内MEMS工艺线加工的微机械陀螺和微机械加速度计,设计了一型MINS/GPS组合导航系统,并进行了工程化实现。针对国内MEMS工艺水平限制造成的
会议
RTEMS(Real Time Executive for Multiprocessor Systems)是前美国军方研制的嵌入式实时操作系统(RTOS),多用于航天、国防等领域.该文基于FPGA芯片virtex4中内嵌Powerpc405控
军用导航技术是临近空间飞行器的关键技术之一。考虑到临近空间飞行器特殊性以及GPS所有权和使用方式等,提出采用惯性/北斗/天文组合导航系统作为临近空间飞行器的导航系统,
PCI Express是一种应用于各类计算与通信平台的高性能、通用、串行I/O互连协议,该协议基于串行传输技术和包交换结构,在逻辑上可分为物理层、数据链路层以及事务层三个层次.
随着电信行业的迅速发展,电信管理系统的需求不断更新变化,因此必须研究出一套能够快速搭建系统的方案.新一代MAPGIS系统采用了面向服务的搭建技术.它支持插件模式、配置模式
提出一种机抖激光陀螺数字控制方式,完成机抖、稳频控制、计数和高压启辉。根据激光陀螺的拍频输出和外界输入转速的关系,对方波解算并判断出两相邻的极大方波,获得抖动控制
介绍了现有的BP神经网络在预测方面的应用实例,建立了BP网络的预测模型,结合都江堰渠首岷江上游来水量的预测,进行了仿真实验.实验结果表明,该模型是可行的,并且具有较高的预