基于信息粒度的文本聚类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:eclipse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法。首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并。该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率。
其他文献
攻击者攻击序列在安全协议形式化分析技术中用于描述攻击者对安全漏洞的攻击步骤。目前,攻击序列重构技术是安全协议形式化分析研究的热点与难点。对国际流行的方法进行了介
通过对西石门铁矿南区残矿成因及开采技术可行性的分析与研究,总结了该矿残矿回收的实践经验,证明残矿回收是延长矿山服务年限、实现矿产资源充分利用的有效手段。
在利用青海察尔汗盐湖卤水滩晒含钠光卤石的过程中,为使卤水达到光卤石饱和点,必须先经过卤水预晒、析出钠盐、调节等步骤才能进入光卤石池中滩晒.卤水在预晒、析出钠盐、调
在含多CPU的嵌入式系统中,CPU之间的通讯和数据传输是其重要的组成部分。以数字硬盘录像机(DVR)为硬件平台,在简要介绍DVR系统结构和硬件设计的基础上,通过提供双口存储器的驱
介绍了设计模式的概念、分类及目前的研究状况,提出了基于MagnusKardell分类的设计模式混合构造方法,并通过四元组表示法来描述此构造方法,最后通过实例来说明该方法的应用与特
目的儿科护理安全隐患相关因素分析及防范对策。方法选取180例患儿作为研究对象,采用随机数字表法随机分为对照组与实验组,对照组患儿采取常规的护理干预措施,而实验组患儿进
本文分析我国工民建建筑工程施工中存在的问题,并针对这些问题提出了几点优化解决对策。
为了实现虚拟仪表的远程电量测量,提出了一种基于Internet网络电量测量虚拟仪表的软、硬件设计方法。该方法采用PXI总线和DSP技术,完成高精度嵌入式测量插卡的设计,应用LabVIEW开发工具,对虚拟仪表进行远程通信控制,实现对远程信号的测量、波形显示和分析处理。