基于向量空间的文本聚类算法

来源 :电子世界 | 被引量 : 0次 | 上传用户:sworc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种非监督学习,以k-means为例,簇心的选取是个非常随机的过程,导致k值相同的情况下聚类的结果每次都不一样,又不好取个平均,所以聚类的好坏很难被评价出来。文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以向量空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。通过对数字信息的聚类,使所代表的文本内容产生分类的结果,并能一定程度的保证文本聚类结果的精度。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
到2018年底,中国网民规模达8.29亿,手机网民规模8.17亿,手机客户端正成为社会大众传播文化、认识世界的主要方式。就新闻阅读而言,特别是新闻标题,是广大受众能否在海量的信
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
综合考察西方《关雎》翻译和阐释近三百年的实践,可以发现西方译者或阐释者一直尊重中国古典诗歌本身的诗性,既有散体翻译,也有韵体翻译,但是都在追求呈现《关雎》的诗性,一代代译
目的:探讨无创气道正压通气(BiPAP)治疗慢性重度心力衰竭的疗效。方法:按治疗方法将入选的55例慢性重度心力衰竭患者随机分为BiPAP治疗组(26例)和药物治疗组(29例)。比较治疗前后血气
日前,笔者结合主题教育中深入做好“三服务”、做到强服务解难题快一步深一层,带队来到浙赣边际(衢饶)合作区,与江西省发展改革委负责人,衢州市、上饶市发展改革委负责人,江
本文从对计算机管理技术中数据库系统的的特征和发展趋势的概况出发,着手分析计算机数据库在信息管理中的应用,就计算机数据库技术在我国信息管理中的问题提出了解决的策略。
云计算是指通过互联网技术以按需、易扩展、动态的方式获得所需要的资源,它是一种全新的IT资源使用模式。智慧城市是新一代信息技术革命的结果,尽管我国已经出台了一些智慧城市相关的规划和有利的政策,但南阳市智慧城市建设依然有很多未知风险的存在。因此,本文简要介绍云计算的概念与特点,对云计算在南阳智慧城市建设中的应用进行研究分析,为南阳市智慧城市的建设出谋划策,为推动南阳市智慧城市建设中优化资源配置构想出具
本文分析了《信号分析与处理》课程的特点及几个难点问题,提出了采用Matlab编程环境对《信号分析与处理》课程中的一些问题进行模拟和演示的教学授课思路,进而帮助学生充分理