基于Isomap的中文短信文本聚类算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wanglyyou66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给出的算法思想是首先计算出中文短信的相似度,再通过使用Isomap方法得到短信在语义空间中的嵌入情况,然后将短信在低维嵌入上进行聚类分析。该算法克服了短信的传统聚类分析在表示层次上遇到的困难,也克服了词频统计法不能将内容意思相似的短信聚集在一起的缺点,实验表明该算法是行之有效的。
其他文献
利用平衡记分法建立供应链绩效评价指标体系,利用粗糙集理论对绩效评价体系进行约简,得到约简后的指标集后,使用基于信息熵的多属性评价方法对供应链绩效进行评价和排序,以便决策
随着我国经济发展和国际地位的显著提高,国内和国际的社会危害分子蠢蠢欲动。防范薄弱的公共场所往往成为社会危害分子的袭击目标。CPTED鼓励人们打击犯罪和恐怖袭击要主动,
针对多个传感器对某一特性指标进行测量实验的数据融合问题,提出了一种基于主成分分析的融合方法。该方法把各传感器的测量数据作为一变量,定义总体的各主成分,利用测量值与主成分的复相关关系,给出了各传感器的综合支持程度和数据融合公式。应用实例验证了方法的有效性和精确性。
经过两年努力,构建了二连盆地铀资源多元信息数据库,依托铀矿地质云平台应用示范系统(铀矿地质云平台)开展了数据库的服务发布研究。通过该平台门户系统的相关功能模块,可实
Creo软件在工业设计和机械设计领域得以广泛应用,而PDF文档具有通用性的优点更方便存储、阅读。本文利用Creo Parametric Toolkit进行二次开发,实现Creo工程图纸快速转化成PD
提出了一种基于编码和二维条形码的数字水印算法,基本思想是先对二维条形码进行0、1二值化,再对结果进行分块,并且对各个子块进行编码,最后将各子块合并以后的图像按照特定顺
阐述了一套完整的设计性实验所经过的四个阶段,并根据医药学专业学生特点,以“食醋中总酸度的测定”为例,介绍了设计性实验的教学实施过程,分析了医药学专业开设设计性实验的意义
高寒山地联合反击作战的通信保障受环境因素制约极为严重,要想取得作战胜利并非易事。随着我国综合实力的不断提升,高寒山地联合反击作战的通信保障问题有望得到彻底解决,通
电力系统中线路损耗是常见问题,不可避免。要想电力系统有更好的提升必定要思考线损管理中存在的问题,并针对问题尝试结合新的技术调整线损管理模式,通过引入新装置,完善管理
卫星云图中人们感兴趣的区域(ROI)往往是各类云团,针对卫星云图内容的复杂性,利用直方图模糊加权C均值聚类方法实现云图的图像分割,对分割结果进行后处理,最终获取云图内的感兴趣区域。常规聚类方法需要人工指定类个数,影响了ROI提取过程的自动化程度。引入修正聚类评价指标,基于该指标实现最佳类别个数的自动确定。云图分割是感兴趣区域提取过程的关键,采用的直方图模糊加权C均值聚类方法在原有算法基础上,引入样